MLおよびDL用のデータと環境を準備する

このセクションでは、機械学習とディープラーニングのためにデータとDatabricks環境を準備する方法について説明します。

データを準備する

このセクションの記事では、MLおよびDLアプリケーション特有のデータの読み込みと前処理の側面について説明します。

環境を準備する

Databricks Runtime for Machine Learning (Databricks Runtime ML) は、機械学習とデータサイエンス用に最適化されたすぐに使用できる環境です。 Databricks Runtime ML には、TensorFlow、PyTorch、Horovod、 Scikit-Learn 、XGBoost などの多くの外部ライブラリが含まれており、 XGBoost での GPU アクセラレーション、 HorovodRunner を使用した分散ディープラーニング、 Databricks File System (DBFS) FUSE マウントを使用したモデル チェックポイント処理など、パフォーマンスを向上させる拡張機能が用意されています。

Databricks Runtime MLを使用するには、クラスターを作成する際にMLバージョンのラインタイムを選択します。

機械学習ワークフローのために Unity Catalog のデータにアクセスするには、クラスターの アクセス モード がシングル ユーザー (割り当て済み) である必要があります。 共有クラスターは、Databricks Runtime for Machine Learning と互換性がありません。

ライブラリをインストールする

追加のライブラリをインストールすることで、ノートブックやクラスター用のカスタム環境を構築できます。

GPUクラスターを使用する

GPU クラスターを作成して、ディープラーニング タスクを高速化できます。 Databricks GPU クラスターの作成については、 「GPU 対応のコンピュート」を参照してください。 Databricks Runtime 機械学習には、GPU ハードウェア ドライバーと CUDA などの NVIDIA ライブラリが含まれています。