プラットフォーム管理チートシート
この記事は、推奨されるベストプラクティスについて、アカウント管理者とワークスペース管理者に明確で主張のあるガイダンスを提供することを目的としています。 アカウント管理者またはワークスペース管理者は、Databricks アカウントのコスト、可観測性、データガバナンス、セキュリティを最適化するために、次のプラクティスを実装する必要があります。
セキュリティの詳細なベスト プラクティスについては、PDF の「 Databricks GCP Security Best Practices and Threat Model」を参照してください。
ベスト プラクティス |
インパクト |
ドキュメント |
---|---|---|
Unity Catalogを有効化 |
データガバナンス: Unity Catalog は、Databricks ワークスペース全体で一元化されたアクセス制御、監査、リネージ、およびデータディスカバリー機能を提供します。 |
|
使用タグの適用 |
可観測性:使用状況を関連するカテゴリに個別にマッピングします。 組織のビジネスユニット、特定のプロジェクト、その他のユーザーやグループにタグを割り当てて適用します。 |
|
クラスターポリシーを使用する |
コスト: 自動終了 (All-Purpose クラスターの場合) でコストを制御し、最大クラスター サイズを制限します。 可観測性: クラスターポリシーに セキュリティ: クラスター アクセス モードを制限して、ユーザーが Unity Catalog対応クラスターを作成してデータのアクセス許可を適用することのみを許可します。 |
|
サービスプリンシパルを使用してサードパーティのソフトウェアに接続する |
セキュリティ: サービスプリンシパルは、個々のユーザーの資格情報ではなく、サードパーティのサービスが Databricks に対して直接認証できるようにする Databricks ID の種類です。 個々のユーザーの資格情報に問題が発生した場合、サードパーティのサービスは中断されません。 |
|
SCIM 統合を設定する |
セキュリティ: Databricks にユーザーを手動で追加する代わりに、ID プロバイダーと統合して、ユーザーのプロビジョニングとプロビジョニング解除を自動化します。 ユーザーが ID プロバイダーから削除されると、Databricks からも自動的に削除されます。 |
|
アカウントレベルのグループでアクセス制御を管理する |
データ ガバナンス: アカウント レベルのグループを作成して、ワークスペース、リソース、データへのアクセスを一括制御できるようにします。これにより、すべてのユーザーにすべてへのアクセスを許可したり、個々のユーザーに特定のアクセス許可を付与したりする必要がなくなります。 ID プロバイダーから Databricks グループにグループを同期することもできます。 |
|
IP ホワイトリスト用の IP アクセスを設定する |
セキュリティ: IP アクセス リストにより、ユーザーはセキュリティで保護されていないネットワーク内の Databricks リソースにアクセスできなくなります。 セキュリティで保護されていないネットワークからクラウド サービスにアクセスすると、特にユーザーが機密データや個人データへのアクセスを許可している場合に、企業にセキュリティ リスクをもたらす可能性があります アカウントコンソールとワークスペースの IP アクセスリストを設定してください。 |
|
Databricks シークレットまたはクラウド プロバイダー シークレット マネージャーを使用する |
セキュリティ: Databricks シークレットを使用すると、外部データソースの資格情報を安全に格納できます。 ノートブックに資格情報を直接入力する代わりに、シークレットを参照してデータソースを認証するだけです。 |
|
個人用アクセストークン (PAT) に有効期限を設定する |
セキュリティ: ワークスペース管理者は、ユーザー、グループ、およびサービスプリンシパルの PAT を管理できます。 PAT の有効期限を設定すると、トークンの紛失やトークンの長期化のリスクが軽減され、ワークスペースからのデータ流出につながる可能性があります。 |
|
予算アラートを使用して使用状況を監視する |
可観測性:組織にとって重要な予算に基づいて使用状況を監視します。 予算の例としては、プロジェクト、移行、BU、四半期予算または年間予算などがあります。 |
|
システム テーブルを使用してアカウントの使用状況を監視する |
可観測性: システム テーブルは、監査ログ、データリネージ、課金利用など、アカウントの運用データの Databricks でホストされる分析ストアです。 システムテーブルを使用して、アカウント全体の可観測性を確保できます。 |