課金利用ログスキーマ (レガシー)

この記事には、すべての製品の使用状況が記録されるわけではない、従来の使用状況ログに関する詳細が含まれています。 Databricks では、完全な使用状況データにアクセスしてクエリを実行するには、課金利用システム テーブルを使用することをお勧めします。

この記事では、アカウントコンソールからダウンロードした利用ログデータの見方と分析方法について説明します。

課金利用は、アカウント コンソールで直接表示およびダウンロードするか、Account API を使用して表示およびダウンロードできます。

CSVファイルのスキーマ

タイプ

説明

workspaceId

string

ワークスペースのID。

1234567890123456

timestamp

datetime

提供された利用時間の終了時刻。

2019-02-22T09:59:59.999Z

ClusterID

string

クラスター(クラスターの場合)またはウェアハウス(SQL ウェアハウスの場合)のID

クラスターの例: 0406-020048-brawl507

SQLウェアハウスの例: 8e00f0c8b392983e

clusterName

string

クラスター/ウェアハウスのユーザー指定の名前。

Shared Autoscaling

clusterNodeType

string

クラスター/ウェアハウスのインスタンスタイプ。

クラスターの例: m4.16xlarge

SQLウェアハウスの例: db.xlarge

clusterOwnerUserId

string

クラスター/ウェアハウスを作成したユーザーのID。

12345678901234

clusterCustomTags

string(「"」がエスケープされたJSON)

この時間にクラスター/ウェアハウスに関連付けられたカスタムタグ。

"{""dept"":""mktg"",""op_phase"":""dev""}"

sku

string

課金 SKU。 値の一覧については、 課金 SKU の表 を参照してください。

STANDARD_ALL_PURPOSE_COMPUTE

dbus

double

この時間にユーザーが使用したDBU数。

1.2345

machineHours

double

クラスター/ウェアハウス内のすべてのコンテナで使用されたマシン時間の合計。

12.345

clusterOwnerUserName

string

クラスター/ウェアハウスを作成したユーザーのユーザー名(Eメールアドレス)。

user@yourcompany.com

tags

string(「"」がエスケープされたJSON)

この時間中にクラスターに関連付けられたデフォルトおよびカスタムのインスタンス プール タグ (該当する場合)。 「クラスタータグ」「ウェアハウスタグ」 、および「プールタグ」を参照してください。 これは、 clusterCustomTags 列のスーパーセットです。

"{""dept"":""mktg"",""op_phase"":""dev"", ""Vendor"":""Databricks"", ""ClusterId"":""0405-020048-brawl507"", ""Creator"":""user@yourcompany.com""}"

請求SKU

  • ENTERPRISE_ALL_PURPOSE_COMPUTE

  • ENTERPRISE_ALL_PURPOSE_COMPUTE_(PHOTON)

  • ENTERPRISE_JOBS_COMPUTE

  • ENTERPRISE_JOBS_COMPUTE_(PHOTON)

  • ENTERPRISE_JOBS_LIGHT_COMPUTE

  • ENTERPRISE_SQL_COMPUTE

  • ENTERPRISE_DLT_CORE_COMPUTE

  • ENTERPRISE_DLT_CORE_COMPUTE_(PHOTON)

  • ENTERPRISE_DLT_PRO_COMPUTE

  • ENTERPRISE_DLT_PRO_COMPUTE_(PHOTON)

  • ENTERPRISE_DLT_ADVANCED_COMPUTE

  • ENTERPRISE_DLT_ADVANCED_COMPUTE_(PHOTON)

  • PREMIUM_ALL_PURPOSE_COMPUTE

  • PREMIUM_ALL_PURPOSE_COMPUTE_(PHOTON)

  • PREMIUM_JOBS_COMPUTE

  • PREMIUM_JOBS_COMPUTE_(PHOTON)

  • PREMIUM_JOBS_LIGHT_COMPUTE

  • PREMIUM_SQL_COMPUTE

  • PREMIUM_DLT_CORE_COMPUTE

  • PREMIUM_DLT_CORE_COMPUTE_(PHOTON)

  • PREMIUM_DLT_PRO_COMPUTE

  • PREMIUM_DLT_PRO_COMPUTE_(PHOTON)

  • PREMIUM_DLT_ADVANCED_COMPUTE

  • PREMIUM_DLT_ADVANCED_COMPUTE_(PHOTON)

  • STANDARD_ALL_PURPOSE_COMPUTE

  • STANDARD_ALL_PURPOSE_COMPUTE_(PHOTON)

  • STANDARD_JOBS_COMPUTE

  • STANDARD_JOBS_COMPUTE_(PHOTON)

  • STANDARD_JOBS_LIGHT_COMPUTE

  • STANDARD_DLT_CORE_COMPUTE

  • STANDARD_DLT_CORE_COMPUTE_(PHOTON)

  • STANDARD_DLT_PRO_COMPUTE

  • STANDARD_DLT_PRO_COMPUTE_(PHOTON)

  • STANDARD_DLT_ADVANCED_COMPUTE

  • STANDARD_DLT_ADVANCED_COMPUTE_(PHOTON)

Databricksで使用状況データを分析する

このセクションでは、請求対象使用量CSVファイルのデータをDatabricksで分析用に利用できるようにする方法について説明します。

CSVファイルでは市販の表計算アプリケーションの標準的な形式が使用されていますが、Apache Sparkで読み込むには修正が必要です。Databricksで使用状況テーブルを作成するときは、option("escape", "\"")を使用する必要があります。

合計DBUは、dbus列の合計です。

テーブル作成UIを使用してログをインポートする

データ追加UIを使用してデータを読み込むと、CSVファイルをDatabricksにインポートして分析できます。

Spark DataFrameを作成する

以下のコードを使用して、CSVファイルへのパスから使用状況テーブルを作成することもできます。

df = (spark.
      read.
      option("header", "true").
      option("inferSchema", "true").
      option("escape", "\"").
      csv("/FileStore/tables/usage_data.csv"))

df.createOrReplaceTempView("usage")

Deltaテーブルを作成する

前述の例のDataFrame(df)からDeltaテーブルを作成するには、以下のコードを使用します。

(df.write
    .format("delta")
    .mode("overwrite")
    .saveAsTable("database_name.table_name")
)

警告

保存されたDeltaテーブルは、新しいCSVファイルを追加または置換しても自動的には更新されません。最新のデータが必要な場合は、Deltaテーブルを使用する前にこれらのコマンドを再実行してください。