アカウントコンソールを使用したワークスペースの作成

この記事では、アカウント コンソールを使用してワークスペースを作成および管理する方法について説明します。 または、 アカウントAPI または Terraformを使用してワークスペースを作成することもできます。

始める前に

  • 新しいワークスペースを作成する前に、すべての構成設定を理解してください。 ワークスペースの作成後にワークスペース構成を変更することはできません。

  • アカウント(Google アカウントまたは サービス アカウント )に対して、必要な Google 権限が必要です。「 必要なアクセス許可」を参照してください。

  • ワークスペースに必要な十分な Google クラウド リソース割り当てがあることを確認します。必要に応じて、クォータの引き上げを要求します。

  • Databricks によってワークスペース用に起動される Google Kubernetes Engine (GKE) クラスターを変更またはカスタマイズしないでください。 クラスターをカスタマイズする必要がある場合は、Databricks アカウント チームに問い合わせて、そのような変更の安全性と長期的な保守可能性を確認してください。

ワークスペースを作成する

ワークスペースを作成するには、次のようにします。

  1. 新しいワークスペースのネットワークの種類を選択します。

    • Databricks マネージド VPC (デフォルト): Databricks は VPC のライフサイクルを作成および管理します。 このネットワークタイプを選択した場合、ここで実行する追加のステップはありません。

    • 顧客管理 VPC: 使用する新しい Databricks ワークスペース用に独自の 顧客管理 VPC を作成して指定します。 このネットワークタイプを選択した場合は、ここで次のステップを実行します。

      1. すべての顧客管理 VPC 要件を確認します

      2. VPC を作成します

      3. 登録する VPC とそのサブネットを表すネットワーク設定。

  2. Databricks アカウント管理者として、 アカウント コンソール にログインし、 [ワークスペース ] アイコンをクリックします。

  3. ワークスペースの作成」をクリックします。

  4. ワークスペース名]フィールドに、人間にとってわかりやすい名称で、このワークスペースの名前を入力します。名前には英数字、アンダースコア、ハイフンのみが使用可能で、長さは3~30文字にする必要があります。

  5. [ リージョン] フィールドで、ワークスペースのネットワークとクラスターのリージョンを選択します。 サポートされているリージョンの一覧については、「 Databricks のクラウドとリージョン」を参照してください。

  6. [Google クラウド プロジェクト ID] フィールドに、 Google クラウド プロジェクト ID を入力します。 プロジェクト ID を取得する方法については、「 要件」を参照してください。

    このワークスペースに 顧客管理 VPC を使用する場合は、以下を実行します。

    • スタンドアロン VPC の場合は、これを VPC のプロジェクト ID に設定します。

    • 共有 VPC の場合は、このワークスペースのリソースのプロジェクト ID に設定します。

  7. ネットワーク設定。 このステップは、ワークスペースのネットワークの種類によって異なります。 顧客管理 VPC の場合は、[ 顧客管理 VPC ] タブをクリックします。

    • 必要に応じて、カスタムサブネットサイズを指定します。 これらのフィールドを空白のままにすると、Databricks はデフォルトを使用します。

      重要

      Databricks ワークスペースで使用される GKE サブネットを正確に構成します。 ワークスペースのデプロイ後に変更することはできません。 Databricks サブネットのアドレス範囲が小さすぎると、ワークスペースの IP 空間が使い果たされ、Databricks ジョブが失敗します。 必要なアドレス範囲のサイズを決定するために、Databricks には サブネット計算ツールが Microsoft Excel スプレッドシートとして用意されています。

      [ 詳細設定 ] をクリックして、カスタム IP 範囲を CIDR 形式で指定します。 これらのフィールドの IP 範囲は重複してはなりません。 すべての IP アドレスは、 10.0.0.0/8100.64.0.0/10172.16.0.0/12192.168.0.0/16、および 240.0.0.0/4の範囲内にある必要があります。

      これらの IP 範囲のサイズは、ワークスペースのノードの最大数に影響します。

      • 「サブネット CIDR 」フィールドに、サブネットに使用するIP範囲をCIDR形式で入力します。 GKE クラスターのノードは、この IP 範囲から取得されます。 これは、GKE クラスターが存在するサブネットの IP 範囲でもあります。 範囲は /9 以下、 /29以上である必要があります。

      • [ Pod address range ] 欄に、GKE Pod のセカンダリ IP 範囲として使用する IP 範囲を CIDR 形式で入力します。 範囲は /9 以下、 /21以上である必要があります。

      • [ サービス アドレス 範囲] 欄に、GKE サービスのセカンダリ IP 範囲として使用する IP 範囲を CIDR 形式で入力します。 範囲は /16 以下、 /27以上である必要があります。

    • VPC とそのサブネットを表す ネットワーク設定 を指定します。

      • ネットワークMode: これを [顧客管理ネットワーク] に設定します。

      • ネットワーク構成: ネットワーク構成の名前を選択します。

  8. (オプション)プライベート GKE クラスターの詳細を構成します。

    • デフォルトでは、Databricks はパブリック GKE クラスターではなくプライベート GKE クラスターを作成します。 プライベート クラスターの GKE ノードには、パブリック インターネットでルーティング可能なパブリック IP がありません。 このオプションでは、Databricks で追加の Google Cloud クラウド NAT を作成する必要があります。 プライベート クラスタの場合、必要に応じて GKE マスター リソースの IP 範囲にカスタム値を設定できます。 [ Advanced configurations ] をクリックし、[ IP range for GKE master リソース ] フィールドを設定します。 すべての IP アドレスは、 10.0.0.0/8100.64.0.0/10172.16.0.0/12192.168.0.0/16、および 240.0.0.0/4の範囲内にある必要があります。 範囲のサイズは /28である必要があります。

    • 代わりにパブリック GKE クラスターを使用するには、[ 詳細設定 ] をクリックし、[ プライベート クラスターを有効にする] の選択を解除します。

  9. (オプション)ワークスペースで Google Private Service Connect(PSC)を有効にすることで、プライベート接続でワークスペースを保護し、データ流出のリスクを軽減できます。 これを構成するには、「 詳細構成 」をクリックし、プライベート・アクセス設定オブジェクトを選択します。 PSC 構成を追加する前に、Databricks では、要件とコンテキストについて、 ワークスペースのプライベート サービス接続を有効にする の記事を読むことを強くお勧めします。

  10. (オプション) 次の 2 つの異なる使用例のために顧客管理キーを追加できます。

    • Databricks コントロール プレーン内のマネージドサービス データ (ノートブック、シークレット、および Databricks SQL クエリ データ)。

    • ワークスペース ストレージ (2 つのワークスペース GCS バケット、およびクラスターまたは SQL ウェアハウスの GCE 永続ディスク ボリューム)。

    ワークスペースの作成時にこれを構成するには、2 つのピッカーを使用して、ユースケースごとに作成済みの暗号化キー構成を選択できます。 両方のユースケースをサポートしている場合は、同じ構成を選択できます。 アカウント コンソールを使用する詳細な手順については、 「顧客管理キーの暗号化の構成」を参照してください。

    または、このワークスペース作成フローで、ユースケースのピッカーをクリックし、「新しい暗号化キー構成の追加」をクリックして、 キー構成を作成することもできます。

  11. [保存]をクリックします。

  12. ワークスペースを初めて作成する場合は、Googleポップアップウィンドウが表示され、Googleアカウントを選択するように求められます。 次の手順を実行します。

    重要

    Google アカウントのポップアップが表示されない場合:

    • ページが変更されない場合は、Webブラウザにポップアップブロッカーがある可能性があります。 ポップアップウィンドウのブロックに関する通知を探します。 ドメイン accounts.gcp.databricks.comからのポップアップウィンドウを許可するようにポップアップブロッカーを設定します。

    • Google ダイアログは表示されないが、ブラウザにワークスペースのリストが表示される場合は、次の手順に進みます。

    1. [Google] ダイアログで、アカウント コンソールへのサインインに使用した Google アカウントを選択します。

    2. 次の画面で、追加のスコープを求める同意要求に返信します。 [ 許可] をクリックします。

      同意画面は、ワークスペースを初めて作成しようとしたときに表示されます。 新しいワークスペースが連続する場合、同意画面は表示されません。 Google アカウント ツールを使用して Databricks に付与された同意を取り消すと、Google は同意画面を再度表示します。

  13. ワークスペースが正常に作成されたことを確認します。 ワークスペースのリストでワークスペースの横にある [ 開く] をクリックします。 ワークスペースの状態を表示し、ワークスペースをテストするには、「 ワークスペースの状態の表示」を参照してください。

  14. ワークスペースの GCS バケットをセキュリティで保護します。 「プロジェクト内のワークスペースの GCS バケットを保護する」を参照してください。

    ワークスペースを作成すると、Databricks on Google クラウドによって、Google クラウド プロジェクトに 2 つの Google クラウド ストレージ (GCS) バケットが作成されます。 Databricks では、これらの GCS バケットをセキュリティで保護して、外部からアクセスできないようにすることを強くお勧め Databricks on Google Cloud。

ワークスペースの作成時に、Databricks はプロジェクトで必要な Google APIs を有効にします (まだ有効になっていない場合)。 「 ワークスペースのプロジェクトで Google APIs を有効にする」を参照してください。

ワークスペースのプロジェクト でAPIs Google を有効にする

ワークスペースの作成時に、Databricks は、Google クラウド プロジェクトで次の必要な Google APIs (まだ有効になっていない場合) を自動的に有効にします。

これらの APIs は、ワークスペースの削除時に自動的に無効になりません。

ワークスペースの作成制限

同じ Google クラウド プロジェクトでは、週に最大 200 個のワークスペースを作成できます。 この制限を超えると、ワークスペースの作成は失敗し、「Creating custom cloud IAMroll <your-role> in project <your-project> rejected" というエラーメッセージが表示されます。

ワークスペースのステータスを表示する

ワークスペースを作成した後、「ワークスペース」ページでそのステータスを確認できます。

  • プロビジョニング:進行中です。数分待ってからページを更新してください。

  • 実行中:ワークスペースの展開が成功しました。

  • 失敗:デプロイに失敗しました。

  • 禁止: Databricks アカウント チームにお問い合わせください。

  • キャンセル中:キャンセル中です。

新しいワークスペースのステータスが [失敗] の場合は、ワークスペースをクリックして詳細なエラー メッセージを表示します。 エラーがわからない場合は、Databricks アカウント チームにお問い合わせください。

障害が発生したワークスペースの構成は更新できません。 削除して、新しいワークスペースを作成する必要があります。

ワークスペースにログインする

  1. アカウントコンソール に移動し、[ワークスペース] アイコンをクリックします。

  2. ワークスペースのある行で、「開く」をクリックします。

  3. ワークスペース管理者としてログインするには、アカウント所有者またはアカウント管理者の電子メールアドレスとパスワードでログインします。

プロジェクト内のワークスペースの GCS バケットを保護する

ワークスペースを作成すると、Databricks on Google Cloud によって GCP プロジェクトに 2 つの Google Cloud Storage GCS バケットが作成されます。

  • 1 つの GCS バケットには、ノートブックの作成など、さまざまな Databricks 機能を使用するときに生成されるシステム データが格納されます。 このバケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログが含まれます。

  • 別の GCS バケット ストアは、 Databricks ファイル システム (DBFS) のワークスペースのルート ストレージです。 DBFSルートバケットは、本番運用の顧客データの保存を目的としたものではありません。 本番運用の顧客データ用の他のデータソースとストレージを追加のGCSバケットに作成します。 必要に応じて、Databricks ファイル システム (DBFS) のマウントとして追加の GCS バケットをマウントできます。 「 Google Cloud Storage への接続」を参照してください。

Databricks では、これらの GCS バケットをセキュリティで保護して、外部からアクセスできないようにすることを強くお勧め Databricks on Google Cloud。

これらの GCS バケットを保護するには、次の手順を実行します。

  1. ブラウザで GCP クラウド コンソールに移動します。

  2. Databricks ワークスペースをホストする Google クラウド プロジェクトを選択します。

  3. そのプロジェクトの [ストレージ サービス] ページに移動します。

  4. 新しいワークスペースのバケットを探します。 それらの名前は次のとおりです。

    • databricks-<workspace id>

    • databricks-<workspace id>-system

  5. バケットごとに、次の操作を行います。

    1. バケットをクリックすると、詳細が表示されます。

    2. 権限」タブをクリックします。

    3. [メンバー] リストのすべてのエントリを確認し、各メンバーにアクセス権が必要かどうかを判断します。

    4. [ IAM Condition ] 列を確認します。 "ワークスペースの Databricks サービス アカウント" という名前のアクセス許可など、一部のアクセス許可には、特定のバケットに制限する IAM 条件があります。 Google クラウドコンソールの UI では条件が評価されないため、実際にはバケットにアクセスできないロールが表示される場合があります。

      IAM条件のないロールには特に注意してください。 これらに制限を追加することを検討してください。

      • プロジェクト レベル以上でストレージのアクセス許可を追加する場合は、IAM 条件を使用して Databricks バケットを除外するか、特定のバケットのみを許可します。

      • 必要な最小限のアクセス許可セットを選択します。 たとえば、読み取りアクセスのみが必要な場合は、Storage Admin ではなく Storage Viewer を指定します。

        警告

        基本ロールは範囲が広すぎるため、使用しないでください。

    5. Google クラウド データ アクセスの監査ログを有効にします。 Databricks では、Databricks が作成する GCS バケットのデータ アクセス監査ログを有効にすることを強くお勧めします。 これにより、発生する可能性のある問題を迅速に調査できます。 データアクセスの監査ログは、GCP の使用コストを増加させる可能性があることに注意してください。 手順については、「 データアクセス監査ログの設定」を参照してください。

これらの GCS バケットのセキュリティ保護について質問がある場合は、Databricks アカウント チームにお問い合わせください。

次のステップ

ワークスペースをデプロイしたので、データ戦略の構築を開始できます。 Databricks では次の記事をお勧めします。