ビジュアライゼーションの種類
この記事では、Databricks ノートブックと Databricks SQL で使用できる視覚化の種類の概要を説明し、各視覚化の種類の例を作成する方法を示します。
棒グラフ
棒グラフは、 円グラフ と同様に、時間の経過に伴うメトリクスの変化を表したり、比例性を示したりします。
注
棒グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: この棒グラフの視覚化では、次の値が設定されています。
X 列:
データセット列:
o_orderdate
日付レベル:
Months
Y 列:
データセット列:
o_totalprice
集計の種類:
Sum
グループ化 (データセット列):
o_orderpriority
スタッキング:
Stack
X 軸名 (デフォルト値を上書き):
Order month
Y 軸名 (デフォルトの値を上書き):
Total price
構成オプション: 棒グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。
SQL クエリー: この棒グラフの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.orders
折れ線グラフ
折れ線グラフは、時間の経過に伴う 1 つ以上のメトリクスの変化を示します。
注
折れ線グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: この折れ線グラフの視覚化では、次の値が設定されました。
X 列:
データセット列:
o_orderdate
日付レベル:
Years
Y 列:
データセット列:
o_totalprice
集計の種類:
Average
グループ化 (データセット列):
o_orderpriority
X 軸名 (デフォルト値を上書き):
Order year
Y 軸名 (デフォルトの値を上書き):
Average price
構成オプション: 折れ線グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。
SQL クエリー: この折れ線グラフの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.orders
面グラフ
面グラフは、折れ線グラフと棒グラフを組み合わせて、1 つ以上のグループの数値が 2 番目の変数 (通常は時間の変数) の進行に伴ってどのように変化するかを示します。 これらは、時間の経過に伴う売上ファネルの変化を示すためによく使用されます。
注
面グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: この面グラフ ビジュアライゼーションでは、次の値が設定されています。
X 列:
データセット列:
o_orderdate
日付レベル:
Years
Y 列:
データセット列:
o_totalprice
集計の種類:
Sum
グループ化 (データセット列):
o_orderpriority
スタッキング:
Stack
X 軸名 (デフォルト値を上書き):
Order year
Y 軸名 (デフォルトの値を上書き):
Total price
構成オプション: 面グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。
SQL クエリー: この面グラフの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.orders
円グラフ
円グラフは、メトリクス間の比例を示します。 時系列データを伝達するための ものではありません 。
注
円グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: この JPY グラフの視覚化では、次の値が設定されました。
X 列 (データセット列):
o_orderpriority
Y 列:
データセット列:
o_totalprice
集計の種類:
Sum
ラベル (デフォルトの値を上書き):
Total price
構成オプション: 円グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。
SQL クエリー: この EUR チャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。
select * from samples.tpch.orders
ヒストグラムチャート
ヒストグラムは、特定の値がデータセット内で発生する頻度をプロットします。 ヒストグラムは、データセットの値が少数の範囲にクラスター化されているか、より分散しているかを理解するのに役立ちます。 ヒストグラムは、個別のバー (ビンとも呼ばれます) の数を制御する棒グラフとして表示されます。
注
ヒストグラム チャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: このヒストグラム チャート ビジュアライゼーションでは、次の値が設定されました。
X 列 (データセット列):
o_totalprice
ビンの数:20
X 軸名 (デフォルト値を上書き):
Total price
構成オプション: ヒストグラム・チャートの構成オプションについては、「 ヒストグラム・チャートの構成オプション」を参照してください。
SQL クエリー: このヒストグラム チャートの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.orders
ヒートマップチャート
ヒートマップチャートは、棒グラフ、積み上げ、バブルチャートの機能をブレンドしたもので、色を使用して数値データを視覚化できます。 ヒートマップの一般的なカラーパレットでは、オレンジや赤などの暖かい色を使用して最大値が表示され、青や紫などの明るい色を使用して最小値が表示されます。
たとえば、各日に最も頻繁に発生するタクシー乗車距離を視覚化し、結果を曜日、距離、および合計料金でグループ化する次のヒートマップについて考えてみます。
注
ヒートマップチャートはバックエンド集計をサポートし、結果セットを切り捨てずに64K行を超えるデータを返すクエリーをサポートします。
構成値: このヒートマップチャートの視覚化では、次の値が設定されています。
X 列 (データセット列):
o_orderpriority
Y 列 (データセット列):
o_orderstatus
カラーカラム:
データセット列:
o_totalprice
集計の種類:
Average
X 軸名 (デフォルト値を上書き):
Order priority
Y 軸名(デフォルト値を上書き):
Order status
配色 (既定の値をオーバーライド):
YIGnBu
構成オプション: ヒートマップ構成オプションについては、「 ヒートマップ・チャート構成オプション」を参照してください。
SQL クエリー: このヒートマップチャートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。
select * from samples.tpch.orders
散布図
散布図の視覚化は、2 つの数値変数間の関係を示すためによく使用されます。 さらに、3 番目の次元を色でエンコードして、数値変数がグループ間でどのように異なるかを示すことができます。
注
散布図はバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: この散布図の視覚化では、次の値が設定されました。
X 列 (データセット列):
l_quantity
Y 列 (データセット列):
l_extendedprice
グループ化 (データセット列):
l_returnflag
X 軸名 (デフォルト値を上書き):
Quantity
Y 軸名 (デフォルトの値を上書き):
Extended price
構成オプション: 散布図の構成オプションについては、「 グラフの構成オプション」を参照してください。
SQL クエリー: この散布図の視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
バブルチャート
バブルチャートは、各ポイントマーカーのサイズが関連するメトリクスを反映する散布図です。
注
バブル チャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: このバブル チャート ビジュアライゼーションでは、次の値が設定されています。
X (データセット列):
l_quantity
Y 列 (データセット列):
l_extendedprice
グループ化 (データセット列):
l-returnflag
バブル サイズ列 (データセット列):
l_tax
バブルサイズ係数:20
X 軸名 (デフォルト値を上書き):
Quantity
Y 軸名 (デフォルトの値を上書き):
Extended price
構成オプション: バブル・チャートの構成オプションについては、「 グラフの構成オプション」を参照してください。
SQL クエリー: このバブル チャートの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
ボックスチャート
ボックス チャートのビジュアライゼーションには、数値データの分布の概要が表示され、必要に応じてカテゴリ別にグループ化されます。 ボックス チャートのビジュアライゼーションを使用すると、カテゴリ間で値の範囲をすばやく比較し、値の局所性、広がり、歪度グループを四分位数で視覚化できます。 各ボックスで、暗い線は四分位範囲を示します。 ボックスプロットのビジュアライゼーションの解釈の詳細については、Wikipediaの ボックスチャートの記事 を参照してください。
注
ボックス チャートでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このボックス チャート ビジュアライゼーションでは、次の値が設定されています。
X 列 (データセット列):
l-returnflag
Y 列 (データセット列):
l_extendedprice
グループ化 (データセット列):
l_shipmode
X 軸名 (デフォルト値を上書き):
Return flag1
Y 軸名 (デフォルトの値を上書き):
Extended price
構成オプション: ボックス・チャート構成オプションについては、「 ボックス・チャート構成オプション」を参照してください。
SQL クエリー: この箱ひげ図の視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
コンボ チャート
複合グラフは、 折れ線 グラフと 棒 グラフを組み合わせて、時間の経過に伴う変化を比例して表示します。
注
複合グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。
構成値: このコンボ チャートの視覚化では、次の値が設定されています。
X 列 (データセット列):
l_shipdate
Y 列:
最初のデータセット列:
l_extendedprice
集計の種類: 平均
2 番目のデータセット列:
l_quantity
集計の種類: 平均
X 軸名 (デフォルト値を上書き):
Ship date
左 Y 軸名 (デフォルトの値を上書き):
Quantity
右 Y 軸名 (デフォルト値を上書き):
Average price
級数:
順序 1 (データセット列):
AVG(l_extendedprice)
Y 軸: 右
タイプ: ライン
順序 2 (データセット列):
AVG(l_quantity)
Y 軸: 左
タイプ: バー
構成オプション: 複合グラフの構成オプションについては、「 グラフの構成オプション」を参照してください。
SQL クエリー: このコンボ チャートの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
コホート分析
コホート分析では、コホートと呼ばれる所定のグループが一連の段階を進むにつれて、それらの結果を調べます。 コホートの視覚化では、日付に対してのみ集計されます (月単位の集計が可能です)。 結果セット内のデータの他の集計は行われません。 他のすべての集計は、クエリー自体の中で行われます。
構成値: このコーホートの視覚化では、次の値が設定されています。
日付 (バケット) (データベース列):
cohort_month
ステージ (データベース列):
months
バケットの母集団サイズ (データベース列):
size
ステージ値 (データベース列):
active
時間間隔:
monthly
構成オプション: コホート構成オプションについては、「 コホート チャート構成オプション」を参照してください。
SQL クエリー: このコホートの視覚化では、次の SQL クエリーを使用してデータセットを生成しました。
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
カウンター表示
カウンターは 1 つの値を目立つように表示し、ターゲット値と比較するオプションがあります。 カウンターを使用するには、[ 値列 ] および [ターゲットカラム] のカウンター ビジュアリゼーションに表示するデータ行を指定します。
注
カウンターは、最大 64,000 行の集計のみをサポートします。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このカウンターの視覚化では、次の値が設定されています。
値列
データセット列:
avg(o_totalprice)
行: 1
ターゲット列:
データセット列:
avg(o_totalprice)
行: 2
ターゲット値の書式設定: 有効
SQL クエリー: このカウンターの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
ファネル ビジュアライゼーション
ファネルの視覚化は、さまざまな段階でのメトリクスの変化を分析するのに役立ちます。 ファネルを使用するには、 step
列と value
列を指定します。
注
ファネルは最大64,000行の集計のみをサポートします。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このファネル ビジュアライゼーションでは、次の値が設定されました。
ステップ列 (データセット列):
o_orderstatus
値列 (データセット列):
Revenue
SQL クエリー: このファネル ビジュアライゼーションでは、次の SQL クエリーを使用してデータ セットを生成しました。
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
コロプレスマップの視覚化
コロプレス ビジュアライゼーションでは、国や州などの地理的な地域は、各キー列の集計値に従って色分けされます。 クエリーは、地理的な場所を名前で返す必要があります。
注
コロプレスの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。
構成値: このコロプレスの視覚化では、次の値が設定されています。
マップ (データセット列):
Countries
地理的列 (データセット列):
Nation
地域タイプ: 略称
値列 (データセット列):
revenue
クラスター モード: 等距離
構成オプション: コロプレス構成オプションについては、「 コロプレス構成オプション」を参照してください。
SQL クエリー: このコロプレスの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
マーカーマップの視覚化
マーカー ビジュアライゼーションでは、マーカーはマップ上の一連の座標に配置されます。 クエリーの結果は、緯度と経度のペアを返す必要があります。
注
Marker は、結果セット内のデータの集計を行いません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。
このマーカーの例は、緯度と経度の両方の値を含むデータセットから生成されますが、Databricks サンプル データセットでは使用できません。 コロプレス構成オプションについては、 マーカー構成オプションを参照してください。
ピボットテーブルの視覚化
ピボットテーブルのビジュアライゼーションは、クエリー結果からレコードを新しい表形式で表示します。 これは、SQL の PIVOT
ステートメントまたは GROUP BY
ステートメントに似ています。 ピボットテーブルのビジュアライゼーションは、ドラッグアンドドロップフィールドで構成します。
注
ピボットテーブルはバックエンド集計をサポートし、結果セットを切り捨てずに 64K 行を超えるデータを返すクエリーをサポートします。 ただし、ピボットテーブル(レガシー)は最大64,000行の集計のみをサポートします。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このピボット テーブルの視覚化では、次の値が設定されました。
行の選択 (データセット列):
l_retkurnflag
列の選択 (データセット列):
l_shipmode
セル
データセット列:
l_quantity
集計の種類: 合計
SQL クエリー: このピボット テーブルの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
サンキー
サンキー図は、ある値のセットから別の値のセットへのフローを視覚化します。
注
サンキーの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。
SQL クエリー: このサンキー ビジュアライゼーションでは、次の SQL クエリーを使用してデータ セットを生成しました。
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
サンバーストシーケンス
サンバースト図は、同心円を使用して階層データを視覚化するのに役立ちます。
注
Sunburst シーケンスでは、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。
SQL クエリー: このサンバーストの視覚化では、次の SQL クエリーを使用してデータ セットを生成しました。
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
テーブル
テーブル ビジュアライゼーションでは、標準テーブルにデータが表示されますが、データを手動で並べ替えたり、非表示にしたり、書式設定したりできます。 テーブルオプションを参照してください。
注
テーブルの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリー自体の中でコンピュートである必要があります。
テーブル構成オプションについては、「 テーブル構成オプション」を参照してください。