ビジュアライゼーションの種類

この記事では、Databricks ノートブックと Databricks SQL で使用できる視覚化の種類の概要を説明し、各視覚化の種類の例を作成する方法を示します。

注

AI/BI ダッシュボードで使用できる視覚化の種類については、「ダッシュボードの視覚化の種類」を参照してください。

棒グラフ

棒グラフは、円グラフと同様に、時間の経過に伴うメトリクスの変化を表したり、比例性を示したりします。

注

棒グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: この棒グラフの視覚化では、次の値が設定されています。

X 列:
- データセット列: o_orderdate
- 日付レベル: Months
Y 列:
- データセット列: o_totalprice
- 集計の種類: Sum
グループ化 (データセット列): o_orderpriority
スタッキング： Stack
X 軸名 (デフォルト値を上書き): Order month
Y 軸名 (デフォルトの値を上書き): Total price

構成オプション: 棒グラフの構成オプションについては、グラフの構成オプションを参照してください。

SQL クエリー: この棒グラフの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

折れ線グラフ

折れ線グラフは、時間の経過に伴う 1 つ以上のメトリクスの変化を示します。

注

折れ線グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: この折れ線グラフの視覚化では、次の値が設定されました。

X 列:
- データセット列: o_orderdate
- 日付レベル: Years
Y 列:
- データセット列: o_totalprice
- 集計の種類: Average
グループ化 (データセット列): o_orderpriority
X 軸名 (デフォルト値を上書き): Order year
Y 軸名 (デフォルトの値を上書き): Average price

構成オプション: 折れ線グラフの構成オプションについては、「グラフの構成オプション」を参照してください。

SQL クエリー: この折れ線グラフの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

面グラフ

面グラフは、折れ線グラフと棒グラフを組み合わせて、1 つ以上のグループの数値が 2 番目の変数 (通常は時間の変数) の進行に伴ってどのように変化するかを示します。これらは、時間の経過に伴う売上ファネルの変化を示すためによく使用されます。

注

面グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: この面グラフビジュアライゼーションでは、次の値が設定されています。

X 列:
- データセット列: o_orderdate
- 日付レベル: Years
Y 列:
- データセット列: o_totalprice
- 集計の種類: Sum
グループ化 (データセット列): o_orderpriority
スタッキング： Stack
X 軸名 (デフォルト値を上書き): Order year
Y 軸名 (デフォルトの値を上書き): Total price

構成オプション: 面グラフの構成オプションについては、グラフの構成オプションを参照してください。

SQL クエリー: この面グラフの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

円グラフ

円グラフは、メトリクス間の比例を示します。時系列データを伝達するための ものではありません 。

注

円グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: この JPY グラフの視覚化では、次の値が設定されました。

X 列 (データセット列): o_orderpriority
Y 列:
- データセット列: o_totalprice
- 集計の種類: Sum
ラベル (デフォルトの値を上書き): Total price

構成オプション: 円グラフの構成オプションについては、グラフの構成オプションを参照してください。

SQL クエリー: この EUR チャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

ヒストグラムチャート

ヒストグラムは、特定の値がデータセット内で発生する頻度をプロットします。ヒストグラムは、データセットの値が少数の範囲にクラスター化されているか、より分散しているかを理解するのに役立ちます。ヒストグラムは、個別のバー (ビンとも呼ばれます) の数を制御する棒グラフとして表示されます。

注

ヒストグラムチャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: このヒストグラムチャートビジュアライゼーションでは、次の値が設定されました。

X 列 (データセット列): o_totalprice
ビンの数:20
X 軸名 (デフォルト値を上書き): Total price

構成オプション: ヒストグラム・チャートの構成オプションについては、ヒストグラム・チャートの構成オプションを参照してください。

SQL クエリー: このヒストグラムチャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

ヒートマップチャート

ヒートマップチャートは、棒グラフ、積み上げ、バブルチャートの機能をブレンドしたもので、色を使用して数値データを視覚化できます。ヒートマップの一般的なカラーパレットでは、オレンジや赤などの暖かい色を使用して最大値が表示され、青や紫などの明るい色を使用して最小値が表示されます。

たとえば、各日に最も頻繁に発生するタクシー乗車距離を視覚化し、結果を曜日、距離、および合計料金でグループ化する次のヒートマップについて考えてみます。

注

ヒートマップチャートはバックエンド集計をサポートし、結果セットを切り捨てずに64K行を超えるデータを返すクエリーをサポートします。

構成値: このヒートマップチャートの視覚化では、次の値が設定されています。

X 列 (データセット列): o_orderpriority
Y 列 (データセット列): o_orderstatus
カラーカラム:
- データセット列: o_totalprice
- 集計の種類: Average
X 軸名 (デフォルト値を上書き): Order priority
Y 軸名(デフォルト値を上書き): Order status
色の名前 (デフォルト値を上書き): Average price
配色 (既定の値をオーバーライド): YIGnBu

構成オプション: ヒートマップ構成オプションについては、「ヒートマップ・チャート構成オプション」を参照してください。

SQL クエリー: このヒートマップチャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders

散布図

散布図の視覚化は、2 つの数値変数間の関係を示すためによく使用されます。さらに、3 番目の次元を色でエンコードして、数値変数がグループ間でどのように異なるかを示すことができます。

注

散布図はバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: この散布図の視覚化では、次の値が設定されました。

X 列 (データセット列): l_quantity
Y 列 (データセット列): l_extendedprice
グループ化 (データセット列): l_returnflag
X 軸名 (デフォルト値を上書き): Quantity
Y 軸名 (デフォルトの値を上書き): Extended price

構成オプション: 散布図の構成オプションについては、グラフの構成オプションを参照してください。

SQL クエリー: この散布図の視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

バブルチャート

バブルチャートは、各ポイントマーカーのサイズが関連するメトリクスを反映する散布図です。

注

バブルチャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: このバブルチャートビジュアライゼーションでは、次の値が設定されています。

X (データセット列): l_quantity
Y 列 (データセット列): l_extendedprice
グループ化 (データセット列): l_returnflag
バブルサイズ列 (データセット列): l_tax
バブルサイズ係数:20
バブルサイズに比例します。 Area
X 軸名 (デフォルト値を上書き): Quantity
Y 軸名 (デフォルトの値を上書き): Extended price

構成オプション: バブル・チャートの構成オプションについては、チャートの構成オプションを参照してください。

SQL クエリー: このバブルチャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.lineitem where l_quantity < 45

ボックスチャート

ボックスチャートのビジュアライゼーションには、数値データの分布の概要が表示され、必要に応じてカテゴリ別にグループ化されます。ボックスチャートのビジュアライゼーションを使用すると、カテゴリ間で値の範囲をすばやく比較し、値の局所性、広がり、歪度グループを四分位数で視覚化できます。各ボックスで、暗い線は四分位範囲を示します。ボックスプロットのビジュアライゼーションの解釈の詳細については、Wikipediaのボックスチャートの記事を参照してください。

注

ボックスチャートでは、最大 64,000 行の集計のみがサポートされます。データセットが 64,000 行を超える場合、データは切り捨てられます。

構成値: このボックスチャートビジュアライゼーションでは、次の値が設定されています。

X 列 (データセット列): l_returnflag
Y 列 (データセット列): l_extendedprice
グループ化 (データセット列): l_shipmode
X 軸名 (デフォルト値を上書き): Return flag
Y 軸名 (デフォルトの値を上書き): Extended price

構成オプション: ボックス・チャート構成オプションについては、「ボックス・チャート構成オプション」を参照してください。

SQL クエリー: この箱ひげ図の視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

コンボチャート

複合グラフは、折れ線グラフと棒グラフを組み合わせて、時間の経過に伴う変化を比例して表示します。

注

複合グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。

構成値: このコンボチャートの視覚化では、次の値が設定されています。

X 列:
- データセット列: l_shipdate
- 日付レベル: Months
Y 列:
- 最初のデータセット列: l_extendedprice
- 集計の種類: 平均
- 2 番目のデータセット列: l_quantity
- 集計の種類: 平均
X 軸名 (デフォルト値を上書き): Ship date
左 Y 軸名 (デフォルトの値を上書き): Quantity
右 Y 軸名 (デフォルト値を上書き): Average price
級数：
- 順序 1 (データセット列): AVG(l_extendedprice)
- Y 軸: 右
- タイプ: ライン
- 順序 2 (データセット列): AVG(l_quantity)
- Y 軸: 左
- タイプ: バー

構成オプション: コンボ・グラフ構成オプションについては、グラフ構成オプションを参照してください。

SQL クエリー: このコンボチャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

コホート分析

コホート分析では、コホートと呼ばれる所定のグループが一連の段階を進むにつれて、それらの結果を調べます。コホートの視覚化では、日付に対してのみ集計されます (月単位の集計が可能です)。結果セット内のデータの他の集計は行われません。他のすべての集計は、クエリー自体の中で行われます。

構成値: このコーホートの視覚化では、次の値が設定されています。

日付 (バケット) (データベース列): cohort_month
ステージ (データベース列): months
バケットの母集団サイズ (データベース列): size
ステージ値 (データベース列): active
時間間隔: monthly

構成オプション: コホート構成オプションについては、「コホートチャート構成オプション」を参照してください。

SQL クエリー: このコホートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

カウンター表示

カウンターは 1 つの値を目立つように表示し、ターゲット値と比較するオプションがあります。カウンターを使用するには、[ 値列 ] および [ターゲットカラム] のカウンタービジュアリゼーションに表示するデータ行を指定します。

注

カウンターは、最大 64,000 行の集計のみをサポートします。データセットが 64,000 行を超える場合、データは切り捨てられます。

構成値: このカウンターの視覚化では、次の値が設定されています。

値列
- データセット列: avg(o_totalprice)
- 行: 1
ターゲット列：
- データセット列: avg(o_totalprice)
- 行: 2
ターゲット値の書式設定: 有効

SQL クエリー: このカウンターの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

ファネルビジュアライゼーション

ファネルの視覚化は、さまざまな段階でのメトリクスの変化を分析するのに役立ちます。ファネルを使用するには、 step 列と value 列を指定します。

注

ファネルは最大64,000行の集計のみをサポートします。データセットが 64,000 行を超える場合、データは切り捨てられます。

構成値: このファネルビジュアライゼーションでは、次の値が設定されました。

ステップ列 (データセット列): o_orderstatus
値列 (データセット列): Revenue

SQL クエリー: このファネルビジュアライゼーションでは、次の SQL クエリーを使用してデータセットを生成しました。

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

地図 (コロプレス) の視覚化

コロプレスビジュアライゼーションでは、国や州などの地理的な地域は、各キー列の集計値に従って色分けされます。クエリーは、地理的な場所を名前で返す必要があります。

注

コロプレスの視覚化では、結果セット内のデータの集計は行われません。すべての集計は、クエリー自体の中でコンピュートである必要があります。

構成値: このコロプレスの視覚化では、次の値が設定されています。

マップ (データセット列): Countries
地理的列 (データセット列): Country
地域タイプ: 略称
値列 (データセット列): Revenue
クラスターモード: 等距離

構成オプション: コロプレス構成オプションについては、「コロプレス構成オプション」を参照してください。

SQL クエリー: このコロプレスの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

マーカーマップの視覚化

マーカービジュアライゼーションでは、マーカーはマップ上の一連の座標に配置されます。クエリーの結果は、緯度と経度のペアを返す必要があります。

注

Marker は、結果セット内のデータの集計を行いません。すべての集計は、クエリー自体の中でコンピュートである必要があります。

このマーカーの例は、緯度と経度の両方の値を含むデータセットから生成されますが、Databricks サンプルデータセットでは使用できません。コロプレス構成オプションについては、マーカー構成オプションを参照してください。

ピボットテーブルの視覚化

ピボットテーブルのビジュアライゼーションは、クエリー結果からレコードを新しい表形式で表示します。これは、SQL の PIVOT ステートメントまたは GROUP BY ステートメントに似ています。ピボットテーブルのビジュアライゼーションは、ドラッグアンドドロップフィールドで構成します。

注

ピボットテーブルはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。ただし、ピボットテーブル(レガシー)は最大64,000行の集計のみをサポートします。データセットが 64,000 行を超える場合、データは切り捨てられます。

構成値: このピボットテーブルの視覚化では、次の値が設定されました。

行の選択 (データセット列): l_returnflag
列の選択 (データセット列): l_shipmode
セル
- データセット列: l_quantity
- 集計の種類: 合計
- 値によるセルの色付け: オン

SQL クエリー: このピボットテーブルの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.lineitem

サンキー

サンキー図は、ある値のセットから別の値のセットへのフローを視覚化します。

注

サンキーの視覚化では、結果セット内のデータの集計は行われません。すべての集計は、クエリー自体の中でコンピュートである必要があります。

SQL クエリー: このサンキービジュアライゼーションでは、次の SQL クエリーを使用してデータセットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

サンバーストシーケンス

サンバースト図は、同心円を使用して階層データを視覚化するのに役立ちます。

注

Sunburst シーケンスでは、結果セット内のデータの集計は行われません。すべての集計は、クエリー自体の中でコンピュートである必要があります。

SQL クエリー: このサンバーストの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

テーブル

テーブルビジュアライゼーションでは、標準テーブルにデータが表示されますが、データを手動で並べ替えたり、非表示にしたり、書式設定したりできます。テーブルオプションを参照してください。

注

テーブルの視覚化では、結果セット内のデータの集計は行われません。すべての集計は、クエリー自体の中でコンピュートである必要があります。

テーブル構成オプションについては、「テーブル構成オプション」を参照してください。

ワードクラウド

ワードクラウドは、データ内で単語が出現する頻度を視覚的に表します。

注

ワードクラウドは、最大64,000行の集計のみをサポートします。データセットが 64,000 行を超える場合、データは切り捨てられます。

構成値: この単語クラウドの視覚化では、次の値が設定されました。

単語列 (データセット列): o_comment
単語の長さ制限: 最小 = 5
周波数制限:最小= 2

SQL クエリー: この単語クラウドの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。

select * from samples.tpch.orders