機械学習とディープラーニング のためのデータの読み込み

このセクションでは、特に機械学習および DL アプリケーション向けのデータのロードに関する情報を説明します。 データの読み込みに関する一般的な情報については、 「Databricks レイクハウスへのデータの取り込み」を参照してください。

データの読み込みとモデルのチェックポイント処理 のためのファイルの保存

機械学習アプリケーションでは、データの読み込みとモデルのチェックポイント処理に共有ストレージを使用する必要がある場合があります。 これは、分散ディープラーニングにとって特に重要です。

Databricks には、Spark とローカル ファイル APIs の両方を使用してクラスター上のデータにアクセスするための データブリック ファイル システム (DBFS) が用意されています。

表形式データを 読み込む

表形式の機械学習データをテーブルまたはファイルからロードできます (たとえば、 「CSV ファイルの読み取りと書き込み」を参照)。 PySpark メソッドDataFrames PandasDataFramesを使用して Apache SparktoPandas() に変換し、必要に応じて PySpark メソッド を使用して NumPyto_numpy() 形式に変換できます。

大規模な言語モデルを 微調整するためのデータの準備

Hugging Face トランスフォーマーHugging Face データセットを使用して、オープンソースの大規模な言語モデルを微調整するためのデータを準備できます。

モデルを微調整するためのデータの準備 Hugging Face

分散トレーニング 用のデータを準備する

このセクションでは、分散トレーニング用のデータを準備する 2 つの方法 (Petastorm と TFRecords) について説明します。