分散トレーニング用のデータを準備する

この記事では、分散トレーニング用のデータを準備する 3 つの方法 (Mosaic ストリーミング、 Petastorm 、TFRecords) について説明します。

Petastorm

Petastorm は、Apache Parquet 形式で保存されたデータを直接読み込むことができる オープンソース データ アクセス ライブラリです。 これは、Parquet が推奨されるデータ形式であるため、Databricks および Apache Spark ユーザーにとって便利です。 次の記事では、このユース ケースについて説明します。

TFレコード

TFRecord 形式を分散ディープラーニングの Data として使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションがデータのトレーニングに使用する単純なレコード指向のバイナリ形式です。

tf.data.TFRecordDataset は TensorFlow データセットで、TFRecords ファイルのレコードで構成されています。 TFRecord データを使用する方法の詳細については、TensorFlow ガイド の「TFRecord データの使用」を参照してください。

次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むための推奨される方法について説明します。