はじめに: ノートブックからデータをクエリして視覚化する

この入門記事では、Databricks ノートブックを使用して、SQL、Python、Scala、R を使用して Unity Catalog に保存されているサンプルデータをクエリし、クエリ結果をノートブックで視覚化する方法について説明します。

要件

この記事のタスクを完了するには、次の要件を満たす必要があります。

ワークスペースでUnity Catalog が有効になっている必要があります。 Unity Catalogの使用開始に関する情報については、 Unity Catalogのセットアップと管理」を参照してください。
既存のコンピュートリソースを使用するか、新しいコンピュートリソースを作成するには、アクセス許可が必要です。「Databricks の使用を開始する」または「Databricks 管理者に問い合わせてください」を参照してください。

ステップ1: 新しいアカウントを作成する

ワークスペースにノートブックを作成するには、サイドバーで「新規」をクリックし、 「新聞」をクリックします。ワークスペースに空白のノートブックが開きます。

ノートブックの作成と管理の詳細については、「ノートブックの管理」を参照してください。

ステップ2: テーブルをクエリする

選択した言語を使用して、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリします。

次のコードをコピーして、新しい空のノートブックセルに貼り付けます。このコードは、Unity Catalog のsamples.nyctaxi.tripsテーブルをクエリした結果を表示します。
```
SELECT * FROM samples.nyctaxi.trips
```
```
display(spark.read.table("samples.nyctaxi.trips"))
```
```
display(spark.read.table("samples.nyctaxi.trips"))
```
```
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
```
Shift+Enterを押すとセルが実行され、次のセルに移動します。

クエリの結果がノートブックに表示されます。

ステップ 3: データを表示する

乗車距離別の平均運賃額を、乗車地の郵便番号でグループ化して表示します。

[テーブル] タブの横にある [+] をクリックし、 [ビジュアライゼーション]をクリックします。

ビジュアライゼーションエディタが表示されます。
[ビジュアライゼーションのタイプ] ドロップダウンで、 [バー] が選択されていることを確認します。
[X] 列で [fare_amount] を選択します。
[Y] 列で [trip_distance] を選択します。
集計の種類として [ Average ] を選択します。
グループ化列としてpickup_zipを選択します。
[保存]をクリックします。

次のステップ

CSVファイルからUnity Catalogにデータを追加してデータを視覚化する方法について詳しくは、「はじめに: シリアル番号からCSVデータをインポートして視覚化する」を参照してください。
Apache Spark を使用して Databricks にデータをロードする方法については、「チュートリアル: Apache Spark DataFrames を使用してデータをロードおよび変換する」を参照してください。
Databricks へのデータの取り込みの詳細については、「Databricks レイクハウスへのデータの取り込み」を参照してください。
Databricks を使用したデータのクエリの詳細については、「データのクエリ」を参照してください。
視覚化の詳細については、「Databricks ノートブックの視覚化」を参照してください。