GPU 対応コンピュート

注：

一部の GPU 対応インスタンスタイプはベータ版であり、コンピュートの作成中にドライバーとワーカータイプを選択するときにドロップダウンリストでそのようにマークされます。

概要

Databricks は、グラフィックスプロセッシングユニット (GPU) で高速化されたコンピュートをサポートしています。この記事では、GPU 対応インスタンスでコンピュートを作成する方法と、それらのインスタンスにインストールされる GPU ドライバーとライブラリについて説明します。

GPU 対応コンピュートのディープラーニングの詳細については、ディープラーニングを参照してください。

GPUコンピュートを作成する

GPU コンピュートの作成は、他のコンピュートの作成と似ています。次の点に注意してください。

Databricks Runtimeバージョンは、Runtime 13.3 LTS 機械学習 (GPU、Scala 2.12.15、Spark 3.4.1) などの GPU 対応バージョンである必要があります。
ワーカータイプと ドライバータイプ は GPU インスタンスタイプである必要があります。

サポートされているインスタンスタイプ

Databricks では、次のインスタンスの種類がサポートされています。

GPUタイプ:NVIDIA A100 80GB GPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
A2-ウルトラGPU-1G	1	80ギガバイト	12	170ギガバイト
A2-ウルトラGPU-2G	2	80GB×2	24	340ギガバイト
A2-ウルトラGPU-4G	4	80GB×4	48	680ギガバイト
A2-ウルトラGPU-8G	8	80GB×8	96	1360ギガバイト

GPUタイプ:NVIDIA A100 40GB GPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
A2-高GPU-1G	1	40ギガバイト	12	85ギガバイト
A2-高GPU-2G	2	40GB×2	24	170ギガバイト
A2-高GPU-4G	4	40GB×4	48	340ギガバイト
A2-高GPU-8G	8	40GB×8	96	680ギガバイト
A2メガGPU-16G	16	40GB×16	96	1360ギガバイト

GPUタイプ:NVIDIA L4 GPU

インスタンス名	GPU の数	GPUメモリ	vCPU	CPUメモリ
G2-スタンダード-4	1	24ギガバイト	4	16ギガバイト
G2-スタンダード-8	1	24ギガバイト	8	32ギガバイト
G2-スタンダード-12	1	24ギガバイト	12	48ギガバイト
G2-スタンダード-16	1	24ギガバイト	16	64ギガバイト
G2-スタンダード-24	2	24GB×2	24	96ギガバイト
G2-スタンダード-32	1	24ギガバイト	32	128ギガバイト
G2-スタンダード-48	4	24GB×4	44	192ギガバイト
G2-スタンダード-96	8	24GB×8	96	384ギガバイト

これらのインスタンスタイプの詳細については、 GCP アクセラレータに最適化されたマシンを参照してください。また、これらのインスタンスが利用できる場所を確認するには、 GCP リージョンを参照してください。 GPU 対応のコンピュートを起動するには、Databricks デプロイメントがサポートされているリージョンに存在する必要があります。

GPU スケジューリング

GPU スケジューリングは、Spark タスクを多数の GPU に効率的に分散します。

Databricks Runtime 9.1 LTS ML 以降では、Apache Spark 3.0 からの GPU 対応スケジューリングがサポートされています。 Databricks はそれをGPUコンピュートに事前設定します。

注：

GPU スケジューリングは、シングルノードコンピュートでは有効になっていません。

AIとMLのGPUスケジューリング

spark.task.resource.gpu.amount は、構成する必要がある可能性がある GPU 対応スケジューリングに関連する唯一の Spark 構成です。デフォルトの構成では、タスクごとに 1 つの GPU が使用されるため、分散推論ワークロードと、すべての GPU ノードを使用する場合の分散トレーニングに適したベースラインです。

分散トレーニング時の通信オーバーヘッドを減らすために、Databricksコンピュート Spark構成でワーカーノードあたりのGPU数にspark.task.resource.gpu.amountを設定することをおすすめします。これにより、Spark ワーカーごとに Spark タスクが 1 つだけ作成され、そのワーカーノード内のすべての GPU が同じタスクに割り当てられます。

分散ディープラーニング推論の並列化を強化するために、 spark.task.resource.gpu.amount を 1/2、1/3、1/4 などの小数値に設定できます。1/Nです。これにより、GPU よりも多くの Spark タスクが作成されるため、より多くの同時タスクで推論要求を並列に処理できます。たとえば、 spark.task.resource.gpu.amount を 0.5、 0.33、または 0.25に設定した場合、使用可能な GPU はタスクの数が 2 倍、3 倍、または 4 倍に分割されます。

GPU インデックス

PySpark タスクの場合、Databricks は割り当てられた GPU を 0 から始まるインデックスに自動的に再マッピングします。タスクごとに 1 つの GPU を使用するデフォルト設定では、タスクにどの GPU が割り当てられているかを確認せずに、デフォルトの GPU を使用できます。タスクごとに複数の GPU を設定する場合 (例: 4)、割り当てられた GPU のインデックスは常に 0、1、2、3 です。割り当てられた GPU の物理インデックスが必要な場合は、 CUDA_VISIBLE_DEVICES 環境変数から取得できます。

Scala を使用する場合は、タスクに割り当てられた GPU のインデックスを TaskContext.resources().get("gpu")から取得できます。

NVIDIA GPU ドライバー、CUDA、および cuDNN

Databricks では、Spark ドライバーとワーカーインスタンスで GPU を使用するために必要な NVIDIA ドライバーとライブラリがインストールされます。

CUDA Toolkit は、 /usr/local/cuda.
cuDNN: NVIDIA CUDA Deep ニューラルネットワークライブラリ。
NCCL: NVIDIA Collective Communications ライブラリ。

含まれている NVIDIA ドライバーのバージョンは 525.105.17 で、CUDA 11.0 をサポートしています。

含まれているライブラリのバージョンについては、使用している特定の Databricks Runtime バージョンのリリースノートを参照してください。

注：

本ソフトウェアには、NVIDIA Corporationが提供するソースコードが含まれています。具体的には、GPU をサポートするために、Databricks には CUDA サンプルのコードが含まれています。

NVIDIA エンドユーザーライセンス契約 (EULA)

Databricks で GPU 対応の "Databricks Runtime バージョン" を選択すると、CUDA、cuDNN、Tesla ライブラリに関する NVIDIA EULA と、NCCL ライブラリに関する NVIDIA エンドユーザーライセンス契約 (NCCL 補足条項を含む) に概説されている使用条件に暗黙的に同意したことになります。

制限事項

ノートブックからジョブをスケジュールする場合、新しい GPU コンピュートを作成することはできません。既存の GPU コンピュート上でジョブを実行できるのは、ジョブが新しいコンピュート UIで作成された場合のみです。
Databricks on Google Cloudでは、nvidia-smi などの一般的に使用される NVIDIA 実行可能ファイルは、PATH 環境変数に含まれていません。代わりに、彼らは /usr/local/nvidia/binにあります。たとえば、 nvidia-smi を使用するには、 Web ターミナルまたは %sh ノートブックのマジックコマンドを使用して /usr/local/nvidia/bin/nvidia-smiを実行する必要があります。
Ganglia を使用したコンピュートメトリクスのモニタリングはDatabricks on Google Cloudではサポートされていません。