課金利用ログスキーマ (レガシー)

注：

この記事には、すべての製品の使用状況を記録しない従来の使用状況ログの詳細が記載されています。 Databricksでは、課金利用システムテーブルを使用して完全な使用状況データにアクセスし、クエリを実行することをお勧めします。

この記事では、アカウントコンソールからダウンロードした使用状況ログデータを読み取って分析する方法について説明します。

課金利用は、アカウントコンソールで直接、またはアカウントAPIを使用して表示およびダウンロードできます。

CSVファイルのスキーマ

列	タイプ	説明	例
workspaceId	string	ワークスペースのID。	`1234567890123456`
timestamp	datetime	提供された利用時間の終了時刻。	`2019-02-22T09:59:59.999Z`
ClusterID	string	クラスター（クラスターの場合）またはウェアハウス（SQL ウェアハウスの場合）のID	クラスターの例： `0406-020048-brawl507` SQLウェアハウスの例： `8e00f0c8b392983e`
clusterName	string	クラスター/ウェアハウスのユーザー指定の名前。	`Shared Autoscaling`
clusterNodeType	string	クラスター/ウェアハウスのインスタンスタイプ。	クラスターの例： `m4.16xlarge` SQLウェアハウスの例： `db.xlarge`
clusterOwnerUserId	string	クラスター/ウェアハウスを作成したユーザーのID。	`12345678901234`
clusterCustomTags	string（「"」がエスケープされたJSON）	この時間にクラスター/ウェアハウスに関連付けられたカスタムタグ。	`"{""dept"":""mktg"",""op_phase"":""dev""}"`
sku	string	請求SKU。値のリストについては、課金 SKU テーブルを参照してください。	`STANDARD_ALL_PURPOSE_COMPUTE`
dbus	double	この時間にユーザーが使用したDBU数。	`1.2345`
machineHours	double	クラスター/ウェアハウス内のすべてのコンテナで使用されたマシン時間の合計。	`12.345`
clusterOwnerUserName	string	クラスター/ウェアハウスを作成したユーザーのユーザー名（Eメールアドレス）。	`user@yourcompany.com`
tags	string（「"」がエスケープされたJSON）	この時間中にクラスターに関連付けられたデフォルトおよびカスタムクラスター/ウェアハウスタグ、およびデフォルトおよびカスタムインスタンスプールタグ (該当する場合)。クラスタータグ、ウェアハウスタグ、プールタグを参照してください。これは、 `clusterCustomTags` 列のスーパーセットです。	`"{""dept"":""mktg"",""op_phase"":""dev"",` `""Vendor"":""Databricks"",` `""ClusterId"":""0405-020048-brawl507"",` `""Creator"":""user@yourcompany.com""}"`

請求SKU

ENTERPRISE_ALL_PURPOSE_COMPUTE
ENTERPRISE_ALL_PURPOSE_COMPUTE_(PHOTON)
ENTERPRISE_JOBS_COMPUTE
ENTERPRISE_JOBS_COMPUTE_(PHOTON)
ENTERPRISE_JOBS_LIGHT_COMPUTE
ENTERPRISE_SQL_COMPUTE
ENTERPRISE_DLT_CORE_COMPUTE
ENTERPRISE_DLT_CORE_COMPUTE_(PHOTON)
ENTERPRISE_DLT_PRO_COMPUTE
ENTERPRISE_DLT_PRO_COMPUTE_(PHOTON)
ENTERPRISE_DLT_ADVANCED_COMPUTE
ENTERPRISE_DLT_ADVANCED_COMPUTE_(PHOTON)
PREMIUM_ALL_PURPOSE_COMPUTE
PREMIUM_ALL_PURPOSE_COMPUTE_(PHOTON)
PREMIUM_JOBS_COMPUTE
PREMIUM_JOBS_COMPUTE_(PHOTON)
PREMIUM_JOBS_LIGHT_COMPUTE
PREMIUM_SQL_COMPUTE
PREMIUM_DLT_CORE_COMPUTE
PREMIUM_DLT_CORE_COMPUTE_(PHOTON)
PREMIUM_DLT_PRO_COMPUTE
PREMIUM_DLT_PRO_COMPUTE_(PHOTON)
PREMIUM_DLT_ADVANCED_COMPUTE
PREMIUM_DLT_ADVANCED_COMPUTE_(PHOTON)
STANDARD_ALL_PURPOSE_COMPUTE
STANDARD_ALL_PURPOSE_COMPUTE_(PHOTON)
STANDARD_JOBS_COMPUTE
STANDARD_JOBS_COMPUTE_(PHOTON)
STANDARD_JOBS_LIGHT_COMPUTE
STANDARD_DLT_CORE_COMPUTE
STANDARD_DLT_CORE_COMPUTE_(PHOTON)
STANDARD_DLT_PRO_COMPUTE
STANDARD_DLT_PRO_COMPUTE_(PHOTON)
STANDARD_DLT_ADVANCED_COMPUTE
STANDARD_DLT_ADVANCED_COMPUTE_(PHOTON)

Databricksで使用状況データを分析する

このセクションでは、請求対象使用量CSVファイルのデータをDatabricksで分析用に利用できるようにする方法について説明します。

CSVファイルでは市販の表計算アプリケーションの標準的な形式が使用されていますが、Apache Sparkで読み込むには修正が必要です。Databricksで使用状況テーブルを作成するときは、option("escape", "\"")を使用する必要があります。

合計DBUは、dbus列の合計です。

テーブル作成UIを使用してログをインポートする

データ追加UIを使用してデータを読み込むと、CSVファイルをDatabricksにインポートして分析できます。

Spark DataFrameを作成する

以下のコードを使用して、CSVファイルへのパスから使用状況テーブルを作成することもできます。

df = (spark.
      read.
      option("header", "true").
      option("inferSchema", "true").
      option("escape", "\"").
      csv("/FileStore/tables/usage_data.csv"))

df.createOrReplaceTempView("usage")

Deltaテーブルを作成する

前述の例のDataFrame（df）からDeltaテーブルを作成するには、以下のコードを使用します。

(df.write
    .format("delta")
    .mode("overwrite")
    .saveAsTable("database_name.table_name")
)

警告

保存されたDeltaテーブルは、新しいCSVファイルを追加または置換しても自動的には更新されません。最新のデータが必要な場合は、Deltaテーブルを使用する前にこれらのコマンドを再実行してください。

課金利用ログ スキーマ (レガシー)