コンピュート作成チートシート

この記事は、コンピュートの作成に関する明確で主張のあるガイダンスを提供することを目的としています。 ワークフローに適したコンピュートタイプを使用することで、パフォーマンスを向上させ、コストを節約できます。

ベスト プラクティス

インパクト

ドキュメント

Databricks を初めて使用する場合は、一般的な汎用インスタンスタイプを使用することから始めます

ワークロードに適したインスタンスタイプを選択すると、効率が向上します。

必要な機能がサポートされていない場合を除き、共有アクセス モードを使用する

共有アクセスモードのコンピュートは、ユーザー間でデータを分離することで、複数のユーザーが使用できます。

十分な可用性がある場合は、最新世代のインスタンスタイプを使用します

最新世代のインスタンスタイプは、最高のパフォーマンスと最新の機能を提供します。

オンデマンドとスポットインスタンスのバランスは、ワークロードの実行に必要な速度に基づいて設定します

スポットインスタンスはコストを節約しますが、スポットインスタンスが再利用された場合、オペレーションの全体的な実行時間に影響を与える可能性があります。

ワークロードが実行するオペレーションのタイプに基づいて、ノードのサイズとワーカーの数を選択します

たとえば、多数のシャッフルが予想される場合は、複数の小さなノードではなく、大きな単一ノードを使用する方が効率的です。

各ワーカーに8つのコアがある1-4台のワーカーのオートスケーリングが設定されたクラスターにvacuumを実行します。

8〜32コアのドライバーを選択します。 メモリ不足 (OOM) エラーが発生した場合は、ドライバーのサイズを増やします。

vacuum文は2つのフェーズで実行され、2番目のフェーズはドライバーのリソースを大量に使用します。 適切なサイズのクラスターを使用しないと、操作の速度が低下し、成功しない可能性があります。

バッチワークフローが Photonの恩恵を受けるかどうかを評価する

Photonはより高速なクエリーを提供し、ワークロードあたりの総コストを削減します。