ディープラーニング

この記事では、Databricks でディープラーニングモデルを開発および微調整するための PyTorch、Tensorflow、分散トレーニングの使用について簡単に紹介します。また、これらのツールの使用方法を示すノートブックの例を含むページへのリンクも含まれています。

Databricks でのディープラーニングワークフローの最適化に関する一般的なガイドラインについては、「 Databricks でのディープラーニングのベストプラクティス」を参照してください。
Databricks での大規模な言語モデルと生成型 AI の操作に関する情報については、以下を参照してください。
- Databricks上の大規模言語モデル (LLM) .
- Databricks での AI と機械学習。

PyTorch

PyTorch は Databricks Runtime 機械学習に含まれており、GPU アクセラレーションによるテンソル計算と、ディープラーニングネットワークを構築するための高レベルの機能を提供します。 Databricks で PyTorch を使用して、単一ノードのトレーニングまたは分散トレーニングを実行できます。「PyTorch」を参照してください。

TensorFlow

Databricks Runtime 機械学習には TensorFlow と TensorBoard が含まれているため、パッケージをインストールせずにこれらのライブラリを使用できます。 TensorFlow は、CPU、GPU、および GPU のクラスターでのディープラーニングと一般的な数値計算をサポートしています。 TensorBoard には、機械学習とディープラーニングのワークフローのデバッグと最適化に役立つ視覚化ツールが用意されています。単一ノードと分散トレーニングの例については、 TensorFlow を参照してください。

分散トレーニング

ディープラーニングモデルはデータと計算を集中的に使用するため、分散トレーニングが重要になる場合があります。 Ray、TorchDistributor、DeepSpeed との統合を使用した分散ディープラーニングの例については、分散トレーニングを参照してください。

ディープラーニングモデル開発のトラッキング

トラッキングは依然として MLflow エコシステムの基盤であり、ディープラーニングの反復的な性質にとって特に重要です。 Databricks は MLflow を使用して、ディープラーニングのトレーニングの実行とモデル開発を追跡します。「MLflow を使用してモデル開発を追跡する」を参照してください。