Databricks Runtime for Machine Learning

この記事では、Machine Learning の Databricks Runtime について説明し、それを使用するクラスタリングを作成する方法のガイダンスを提供します。

Databricks Runtime for Machine Learning とは

Databricks Runtime for Machine Learning (Databricks Runtime ML) は、最も一般的な ML および DL ライブラリを含む、事前に構築された機械学習とディープラーニングインフラストラクチャを使用してクラスターの作成を自動化します。

Databricks Runtime MLに含まれるライブラリ

Databricks Runtime ML には、さまざまな一般的な ML ライブラリが含まれています。ライブラリはリリースごとに更新され、新機能と修正が含まれています。

Databricks では、サポートされているライブラリのサブセットを最上位ライブラリとして指定しています。これらのライブラリの場合、Databricks は更新頻度を高速化し、ランタイムリリースごとに最新のパッケージリリースに更新します (依存関係の競合を除く)。 Databricks は、最上位のライブラリに対する高度なサポート、テスト、および組み込み最適化も提供します。最上位ライブラリは、メジャーリリースでのみ追加または削除されます。

最上位のライブラリとその他の提供されているライブラリの完全なリストについては、のリリースノート Databricks RuntimeMLを参照してください。

追加のライブラリをインストールすることで、ノートブックやクラスター用のカスタム環境を構築できます。

クラスターで実行されているすべてのノートブックでライブラリを使用できるようにするには、クラスターライブラリを作成します。また、initスクリプトを使用して、作成時にクラスターにライブラリをインストールすることもできます。
特定のノートブックセッションでのみ使用できるライブラリをインストールするには、ノートブックスコープのPythonライブラリを使用します。

コンピュートリソースの設定 for Databricks Runtime ML

Databricks Runtime MLに基づいてコンピュートを作成するプロセスは、ワークスペースが Dedicated グループクラスタリングパブリックプレビューに対して有効になっているかどうかによって異なります。プレビューが有効になっているワークスペースには、新しい簡略化されたコンピュート UI があります。

Databricks Runtime MLを使用したクラスターの作成

クラスターを作成するときは、 [Databricks ランタイムバージョン ] ドロップダウンメニューから Databricks Runtime ML バージョンを選択します。 CPU と GPU 対応の両方の ML ランタイムが利用可能です。

ノートブックのドロップダウンメニューからクラスターを選択すると、クラスター名の右側に Databricks Runtime バージョンが表示されます。

GPU 対応 ML ランタイムを選択した場合は、互換性のある [ドライバータイプ ] と [ワーカータイプ] を選択するように求められます。互換性のないインスタンスタイプは、ドロップダウンメニューでグレー表示されます。 GPU 対応インスタンスタイプは、 GPU アクセラレーション ラベルの下に一覧表示されます。 GPU クラスターの作成に関する情報 Databricks 、「 GPU 対応コンピュート」を参照してください。 Databricks Runtime ML には、GPU ハードウェアドライバーと CUDA などの NVIDIA ライブラリが含まれています。

新しいシンプルなコンピュートUIで新しいクラスタリングを作成

このセクションの手順は、ワークスペースが Dedicated グループクラスタリングプレビューに対して有効になっている 場合にのみ 使用してください。

Databricks Runtime の機械学習バージョンを使用するには、 [ 機械学習 ] チェックボックスをオンにします。

GPU ベースのコンピュートの場合は、GPU 対応のインスタンスタイプを選択します。サポートされている GPU タイプの完全なリストについては、「サポートされているインスタンスタイプ」を参照してください。

Photon と Databricks Runtime ML

Databricks Runtime 15.2 ML 以降を実行する CPU クラスターを作成する場合は、 Photon を有効にすることを選択できます。 Photon 、 Spark SQL、 Spark DataFrames、Feature エンジニアリング、 GraphFrames、および xgboost4j を使用するアプリケーションのパフォーマンスが向上します。 Spark RDD、Pandas UDF、および Python などの非 JVM 言語を使用するアプリケーションのパフォーマンスが向上することは期待されていません。したがって、XGBoost、PyTorch、TensorFlowなどのPythonパッケージでは、Photonによる改善は見られません。

Spark RDD APIs と Spark MLlib は Photonとの互換性が限られています。Spark RDD または Spark MLlib を使用して大規模なデータセットを処理すると、Spark メモリの問題が発生する可能性があります。 Spark メモリの問題を参照してください。

Databricks Runtime ML クラスタリングのアクセスモード

Unity Catalogクラスタリング実行中のでDatabricks RuntimeML のデータにアクセスするには、次のいずれかを実行する必要があります。

シングルユーザーアクセスモードを使用してクラスタリングを設定します。
専用アクセスモードを使用してクラスタリングを設定します。専用アクセスモードは現在パブリックプレビュー段階です。専用アクセスモードは、Databricks Runtime ML の共有アクセスモードの機能を提供します。

コンピュートリソースに Dedicated アクセス権がある場合、リソースは 1 人のユーザーまたは 1 つのグループに割り当てることができます。グループ (グループクラスタリング) に割り当てると、ユーザーのアクセス許可は自動的にグループのアクセス許可にスコープが縮小され、ユーザーはグループの他のメンバーとリソースを安全に共有できます。

Databricks Runtime for Machine Learning