アカウントコンソールを使用したワークスペースの作成

この記事では、アカウント コンソールを使用してワークスペースを作成および管理する方法について説明します。 あるいは、アカウントAPIまたはTerraformを使用してワークスペースを作成することもできます。

始める前に

  • 新しいワークスペースを作成する前に、すべての構成設定を理解していることを確認してください。 ワークスペースを作成した後で、ワークスペース構成を変更することはできません。

  • アカウントには、 Google アカウントまたはサービス アカウントという、必要な Google 権限がいくつか付与されている必要があります。 「 必要なアクセス許可」を参照してください。

  • ワークスペースに必要な Google クラウド リソースの割り当てが十分にあることを確認してください。 必要に応じて、クォータの引き上げを要求します。

  • ワークスペース用に Databricks によって起動された Google Kubernetes Engine (GKE) クラスターを変更またはカスタマイズしないでください。 クラスターをカスタマイズする必要がある場合は、Databricks アカウント チームに連絡して、そのような変更の安全性と長期的な保守性を確認してください。

ワークスペースを作成する

ワークスペースを作成するには:

  1. 新しいワークスペースのネットワーク タイプを選択します。

  2. Databricks アカウント管理者として、アカウント コンソールにログインし、ワークスペースアイコンをクリックします。

  3. [ワークスペースの作成]をクリックします。

  4. ワークスペース名]フィールドに、人間にとってわかりやすい名称で、このワークスペースの名前を入力します。名前には英数字、アンダースコア、ハイフンのみが使用可能で、長さは3~30文字にする必要があります。

  5. [リージョン]フィールドで、ワークスペースのネットワークとクラスターのリージョンを選択します。 サポートされているリージョンの一覧については、 「Databricks クラウドとリージョン」を参照してください。

  6. Google クラウド プロジェクト IDフィールドに、Google クラウド プロジェクト ID を入力します。 プロジェクト ID を取得する方法については、「 要件」を参照してください。

    このワークスペースに顧客管理 VPC を使用する予定の場合:

    • スタンドアロン VPCの場合は、これを VPC のプロジェクト ID に設定します。

    • 共有 VPCの場合は、これをこのワークスペースのリソースのプロジェクト ID に設定します。

  7. ネットワーク設定。 このステップは、ワークスペースのネットワーク タイプによって異なります。 顧客管理 VPC の場合は、 [顧客管理 VPC]タブをクリックします。

    • 必要に応じて、カスタムサブネットサイズを指定します。 これらのフィールドを空白のままにすると、Databricks はデフォルトを使用します。

      重要

      Databricks ワークスペースで使用される GKE サブネットを正確に構成します。 ワークスペースがデプロイされた後は変更できません。 Databricks サブネットのアドレス範囲が小さすぎると、ワークスペースの IP スペースが使い果たされ、Databricks ジョブが失敗します。 必要なアドレス範囲のサイズを決定するために、Databricks はMicrosoft Excel スプレッドシートとしてサブネット計算機を提供します。

      CIDR 形式でカスタム IP 範囲を指定するには、 [詳細設定] をクリックします。これらのフィールドの IP 範囲は重複してはなりません。 すべての IP アドレスは、 10.0.0.0/8100.64.0.0/10172.16.0.0/12192.168.0.0/16、および 240.0.0.0/4の範囲内にある必要があります。

      これらの IP 範囲のサイズは、ワークスペースのノードの最大数に影響します。

      • [サブネット CIDR]フィールドに、サブネットに使用する IP 範囲を CIDR 形式で入力します。 GKE クラスターのノードはこの IP 範囲から取得されます。 これは、GKE クラスターが存在するサブネットの IP 範囲でもあります。 範囲は /9 以下、 /29以上である必要があります。

      • 「ポッド アドレス範囲」フィールドに、GKE ポッドのセカンダリ IP 範囲として使用する IP 範囲を CIDR 形式で入力します。 範囲は /9 以下、 /21以上である必要があります。

      • サービス アドレス範囲フィールドに、GKE サービスのセカンダリ IP 範囲として使用する IP 範囲をCIDR形式で入力します。 範囲は /16 以下、 /27以上である必要があります。

    • VPC とそのサブネットを表すネットワーク構成を指定します。

      • ネットワークMode : これを顧客管理ネットワークに設定します。

      • ネットワーク構成: ネットワーク構成の名前を選択します。

  8. (オプション) プライベート GKE クラスターの詳細を構成します。

    • デフォルトでは、Databricks はパブリック GKE クラスターではなくプライベート GKE クラスターを作成します。 プライベート クラスターの GKE ノードには、パブリック インターネットでルーティング可能なパブリック IP がありません。 このオプションでは、 Databricks追加の Google クラウド クラウド NAT を作成する必要があります。 プライベート クラスターの場合、オプションで GKE マスターリソースの IP 範囲にカスタム値を設定できます。 [詳細設定]をクリックし、 GKE マスター リソース フィールドの IP 範囲を設定します。 すべての IP アドレスは、 10.0.0.0/8100.64.0.0/10172.16.0.0/12192.168.0.0/16、および 240.0.0.0/4の範囲内にある必要があります。 範囲のサイズは /28である必要があります。

    • 代わりにパブリック GKE クラスターを使用するには、 [詳細構成]をクリックし、 [プライベート クラスターを有効にする] の選択を解除します。

  9. (オプション)ワークスペースで Google Private Services Connect(PSC)を有効にすると、プライベート接続でワークスペースを保護し、データ流出のリスクを軽減できます。 これを構成するには、「 詳細構成 」をクリックし、プライベート・アクセス設定オブジェクトを選択します。 PSC 構成を追加する前に、Databricks では、要件とコンテキストについて、ワークスペースのプライベート サービス接続を有効にする記事を読むことを強くお勧めします。

  10. (オプション) 顧客管理キーは、次の 2 つの異なるユースケースに追加できます。

    • Databricksコントロール プレーン内のマネージド サービス データ (データベース、シークレット、およびDatabricks SQLクエリ データ)。

    • ワークスペース ストレージ (2 つの ワークスペースGCSバケットと、 クラスター または SQL ウェアハウスの GCE 永続ディスク ボリューム)。

    ワークスペースの作成中にこれを構成するには、2 つのピッカーを使用して、各ユースケースに対して既に作成されている暗号化キー構成を選択します。 両方のユースケースをサポートしている場合は、同じ構成を選択できます。 アカウント コンソールを使用した詳細な手順については、 「暗号化用の顧客管理キーを構成する」を参照してください。

    あるいは、このワークスペース作成フローで、ユースケースのピッカーをクリックし、 「新しい暗号化キー構成の追加」をクリックして、キー構成を作成することもできます。

  11. [保存]をクリックします。

  12. ワークスペースを初めて作成する場合は、Google ポップアップ ウィンドウで Google アカウントを選択するように求められます。 次の手順を実行します。

    重要

    Google アカウントのポップアップが表示されない場合:

    • ページが変更されない場合は、Webブラウザにポップアップブロッカーがある可能性があります。 ポップアップウィンドウのブロックに関する通知を探します。 ドメイン accounts.gcp.databricks.comからのポップアップウィンドウを許可するようにポップアップブロッカーを設定します。

    • Google ダイアログが表示されず、ブラウザにワークスペースのリストが表示される場合は、次の手順に進みます。

    1. Google ダイアログで、アカウント コンソールにサインインした Google アカウントを選択します。

    2. 次の画面で、追加のスコープを求める同意要求に返信します。 [ 許可] をクリックします。

      初めてワークスペースを作成しようとすると、同意画面が表示されます。 それ以降の新しいワークスペースでは、Google は同意画面を表示しません。 Google アカウント ツールを使用して Databricks に付与した同意を取り消すと、Google は同意画面を再度表示します。

  13. ワークスペースが正常に作成されたことを確認します。 ワークスペースのリストで、ワークスペースの横にある[開く]をクリックします。 ワークスペースのステータスを表示し、ワークスペースをテストするには、 「ワークスペースのステータスの表示」を参照してください。

  14. ワークスペースの GCS バケットを保護します。 プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。

    ワークスペースを作成すると、 Databricks on Google Cloud 、Google クラウド プロジェクトに 2 つのGoogle Cloud Storage ( GCS ) バケットが作成されます。 DatabricksGCS外部からアクセスできないようにこれらのDatabricks on Google Cloud バケットを保護することを強くおすすめします。

ワークスペースの作成中に、 Databricks 、プロジェクトで必要な Google APIs一部を有効にします(まだ有効になっていない場合)。 ワークスペースのプロジェクトで Google APIs有効にするを参照してください。

ワークスペースのプロジェクトで Google APIsを有効にする

ワークスペースの作成中に、 Databricks 、Google クラウド プロジェクトで次の必要な Google APIs自動的に有効にします (まだ有効になっていない場合)。

これらのAPIs 、ワークスペースの削除中に自動的に無効になりません。

ワークスペース作成の制限

同じ Google クラウド プロジェクトでは、1 週間に最大 200 個のワークスペースを作成できます。 この制限を超えると、ワークスペースの作成が失敗し、「プロジェクト でのカスタム クラウド IAM ロール<your-role> <your-project>の作成が拒否されました。」というエラー メッセージが表示されます。

ワークスペースのステータスを表示する

ワークスペースを作成した後、「ワークスペース」ページでそのステータスを確認できます。

  • プロビジョニング:進行中です。数分待ってからページを更新してください。

  • 実行中:ワークスペースの展開が成功しました。

  • 失敗:デプロイに失敗しました。

  • 禁止: Databricks アカウント チームにお問い合わせください。

  • キャンセル中:キャンセル中です。

新しいワークスペースのステータスが「失敗」の場合は、ワークスペースをクリックして詳細なエラー メッセージが表示されます。 エラーが理解できない場合は、Databricks アカウント チームにお問い合わせください。

失敗したワークスペースの構成を更新することはできません。 削除して新しいワークスペースを作成する必要があります。

ワークスペースにログインする

  1. アカウント コンソールに移動し、ワークスペースアイコンをクリックします。

  2. ワークスペースのある行で、「開く」をクリックします。

  3. ワークスペース管理者としてログインするには、アカウント所有者またはアカウント管理者の電子メール アドレスとパスワードを使用してログインします。

プロジェクト内のワークスペースの GCS バケットを保護する

ワークスペースを作成すると、Databricks on Google Cloud Google Cloud StorageGCSGCPプロジェクトに 2 つの バケットが作成されます。

  • 1 つの GCS バケットには、ノートブックの作成など、さまざまな Databricks 機能を使用する際に生成されるシステム データが格納されます。 このバケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンドの結果、Spark ログが含まれます。

  • もう 1 つの GCS バケット ストアは、Databricks ファイル システム (DBFS)のワークスペースのルート ストレージです。 DBFS ルート バケットは、本番運用顧客データの保存用ではありません。 追加のGCSバケットに本番運用顧客データ用の他のデータソースとストレージを作成します。 オプションで、Databricks ファイル システム (DBFS) のマウント時に追加の GCS バケットをマウントできます。 「Google Cloud Storage への接続」を参照してください。

DatabricksGCS外部からアクセスできないようにこれらのDatabricks on Google Cloud バケットを保護することを強くおすすめします。

これらの GCS バケットを保護するには:

  1. ブラウザで、 GCPクラウド コンソールに移動します。

  2. Databricksワークスペースをホストする Google クラウド プロジェクトを選択します。

  3. そのプロジェクトのストレージ サービス ページに移動します。

  4. 新しいワークスペースのバケットを探します。 それらの名前は次のとおりです。

    • databricks-<workspace id>

    • databricks-<workspace id>-system

  5. バケットごとに、次の操作を行います。

    1. バケットをクリックすると、詳細が表示されます。

    2. 権限」タブをクリックします。

    3. [メンバー] リストのすべてのエントリを確認し、各メンバーにアクセス権が必要かどうかを判断します。

    4. IAM 条件列を確認します。 「ワークスペースの Databricks サービス アカウント」などの一部の権限には、特定のバケットに制限する IAM 条件があります。 Google クラウド コンソール UI は条件を評価しないため、実際にはバケットにアクセスできないロールが表示される場合があります。

      IAM 条件のないロールには特に注意してください。 これらに制限を追加することを検討してください。

      • プロジェクト レベル以上でストレージ権限を追加する場合は、IAM 条件を使用して Databricks バケットを除外するか、特定のバケットのみを許可します。

      • 必要な最小限のアクセス許可セットを選択します。 たとえば、読み取りアクセスのみが必要な場合は、Storage Admin ではなく Storage Viewer を指定します。

        警告

        基本ロールは範囲が広すぎるため、使用しないでください。

    5. Google クラウド データアクセス監査ログを有効にします。 Databricks では、Databricks が作成する GCS バケットのデータ アクセス監査ログを有効にすることを強くお勧めします。 これにより、発生する可能性のある問題を迅速に調査できます。 データ アクセス監査ログにより GCP の使用コストが増加する可能性があることに注意してください。 手順については、「 データアクセス監査ログの設定」を参照してください。

これらの GCS バケットのセキュリティ保護についてご質問がある場合は、Databricks アカウント チームにお問い合わせください。

次のステップ

ワークスペースをデプロイしたので、データ戦略の構築を開始できます。 Databricks では以下の記事を推奨しています。