サンプルデータセット

Databricks によって提供され、Databricks ワークスペースで使用できるサードパーティによって提供されるさまざまなサンプルデータセットがあります。

Unity Catalog データセット

Unity Catalog では、samples カタログ内の多数のサンプルデータセットにアクセスできます。これらのデータセットは、カタログエクスプローラー UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name> パターンを使用して SQL エディターで参照できます。

nyctaxi スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含む tripsテーブルが含まれています。次の文は、このテーブルの最初の 10 個のレコードを返します。

SQL
SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpchスキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。

SQL
SHOW TABLES IN samples.tpch

CSV 形式のサードパーティのサンプルデータセット

Databricks には、サードパーティのサンプルデータセットをカンマ区切り値(CSV)ファイルとしてワークスペースにすばやくアップロードするための組み込みツール Databricks あります。 CSV 形式で入手できる一般的なサードパーティのサンプルデータセットの一部を次に示します。

サンプルデータセット	サンプルデータセットを CSV ファイルとしてダウンロードするには...
The Squirrel Census	データウェブページで、パークデータをクリックし、リスのデータ、またはストーリー。
OWID データセットコレクション	GitHubリポジトリで、データセットフォルダをクリックします。ターゲットデータセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。
Data.gov CSV datasets	検索結果の Web ページで、対象の検索結果をクリックし、 CSV アイコンの横にある [ダウンロード ] をクリックします。
ダイヤモンド(Kaggleアカウントが必要)	データセットの Web ページの [ データ ] タブの [ データ ] タブの [データ ] タブで、diamonds.csv の隣にあります。 [ダウンロード ] アイコンをクリックします。
NYCタクシー旅行期間 ( Kaggle アカウントが必要)	データセットの Web ページの [ データ ] タブで、[ sample_submission.zip ] の横にあるダウンロードアイコン。データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。

Databricks ワークスペースでサードパーティのサンプルデータセットを使用するには、次の操作を行います。

サードパーティの指示に従って、データセットを CSV ファイルとしてローカルコンピューターにダウンロードします。
CSV ファイルをローカルマシンから Databricks ワークスペースにアップロードします。
インポートしたデータを操作するには、Databricks SQL を使用してデータをクエリします。または、ノートブックを使用して、データをデータフレームとして読み込むこともできます。

ライブラリ内のサードパーティのサンプルデータセット

一部のサードパーティには、 Python Package Index (PyPI) パッケージやComprehensive R Archive Network (CRAN) パッケージなど、ライブラリ内にサンプルデータセットが含まれています。詳細については、ライブラリプロバイダーのドキュメントを参照してください。

クラスターユーザーインターフェイスを使用して Databricks クラスターにライブラリをインストールするには、クラスターライブラリを参照してください。
ノートブック Pythonを使用してDatabricks ライブラリをインストールするには、「ノートブックPython スコープのライブラリ」を参照してください。
Databricks ノートブックを使用して R ライブラリをインストールするには、「ノートブックスコープの R ライブラリ」を参照してください。

Databricks データセット (databricks-データセット) を DBFS にマウント

Databricks では、Unity Catalog 対応の Databricks ワークスペースのほとんどのユースケースで、DBFS とマウントされたクラウドオブジェクトストレージを使用しないことをお勧めします。 DBFS にマウントされた一部のサンプルデータセットは、Databricks で使用できます

注記

Databricks データセットの可用性と場所は、予告なしに変更される場合があります。

DBFS でマウントされた Databricks データセットを参照する

Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。次のコードは、使用可能なすべての Databricks データセットを一覧表示します。

Python
Scala
R

Python
display(dbutils.fs.ls('/databricks-datasets'))

Scala
display(dbutils.fs.ls("/databricks-datasets"))

%fs ls "/databricks-datasets"

Unity Catalog データセット​

CSV 形式のサードパーティのサンプル データセット​

ライブラリ内のサードパーティのサンプルデータセット​

Databricks データセット (databricks-データセット) を DBFS にマウント​

DBFS でマウントされた Databricks データセットを参照する​

Unity Catalog データセット

CSV 形式のサードパーティのサンプルデータセット

ライブラリ内のサードパーティのサンプルデータセット

Databricks データセット (databricks-データセット) を DBFS にマウント

DBFS でマウントされた Databricks データセットを参照する