はじめに: アカウントとワークスペースの設定

Databricksを初めて使用する場合は、このページから開始してください。この記事では、アカウントを作成して最初のワークスペースを立ち上げて実行するための、必要最小限の手順を説明します。

オンラインのトレーニングリソース詳細については、「無料のDatabricksトレーニングを受講する」を参照してください。

Google クラウドで Databricks フリートライアルを開始する

ここでは、フリートライアルの有効期限が切れると従量課金契約になるフリートライアル サブスクリプションを使用して Databricks をサブスクライブする方法の詳細な手順を示します。

注:

ユーザーを Databricks on Google Cloudで稼働させるには、次のことを行う必要があります。

  1. Google クラウド Marketplace で Databricks サブスクリプションを作成します。 これにより、Databricks アカウントが作成されます。 あなたはアカウント所有者であり、初期設定を実行できるのはあなただけですが、他のユーザーをアカウント管理者として割り当てて、後続のアカウント管理タスクを実行できます。

  2. 少なくとも 1 つの Databricks ワークスペースを作成します。 ワークスペースは、チームがすべての Databricks 資産にアクセスするために使用する環境です。

  3. ワークスペースにユーザーとグループを追加します。

このプロセスの概要については、「Databricks on Google Cloudの展開」を参照してください。

要件

Databricks on Google Cloud アカウントを作成する前に、次のことを行います。

  • Google 請求先アカウントが必要です。

  • Google Identity and Access Management(IAM)には、次のロールが必要です。

    • 請求管理者(roles/billing.admin)は、プロジェクトが所在する対象クラウド請求先アカウントまたは Google クラウド組織です。このロールがない場合は、組織の管理者に問い合わせてアクセスをリクエストしてください。

    • 使用する予定の請求先アカウントに関連付けられているプロジェクトの閲覧者(roles/viewer)。閲覧者でない場合は、プロジェクト所有者に連絡してアクセスをリクエストするか、 新しいプロジェクトを作成して適切な権限を自分に付与することができます。 新しいプロジェクトを作成する場合は、 課金を有効にし 、プロジェクトを目的のクラウド請求先アカウントにリンクする必要があります。

    Google クラウドの組織、プロジェクト、請求の関係については、 クラウドの請求アクセス制御に関する Google のドキュメントを参照してください。 Google クラウド全体の役割と権限の詳細については、 役割についてに関するドキュメントをご覧ください。

    Databricks サブスクリプションを取り消すことができるのは、組織内のユーザーだけではない可能性があります。 サブスクリプションを解約するには、請求先アカウントに対する consumerprocurement.orders.cancel 権限を持つ組織内の Google クラウド ユーザー(請求先アカウントの請求管理者ロールまたは親組織の組織オーナー ロールを持つユーザー)がキャンセルできます。

    大事な

    Databricks では、Databricks サブスクリプションをキャンセルできる Google クラウド ユーザーのセットが正しいユーザー セットであることを確認することをお勧めします。 アクセス範囲が広すぎると、サブスクリプションが誤って取り消され、Databricks アカウント内のすべてのワークスペースが削除される可能性があります。 ワークスペースの削除は元に戻せません。

  • ワークスペースをデプロイする Google クラウド プロジェクトが必要です。 プロジェクト ID は、Databricks ワークスペースを作成するときに必要です。 これは 、請求 先アカウントに関連付けられているものと同じ Google クラウド プロジェクトである必要はありません。 ワークスペースの作成時に、Databricks は プロジェクトで必要な Google APIs を有効にします (まだ有効になっていない場合)。

    ワークスペースをデプロイする Google クラウド プロジェクトがまだない場合は、ここで作成します。

    1. Google アカウントで Google ワークスペース または クラウド Identity が有効になっていることを確認します。

    2. Google クラウド コンソール内で Google クラウド Identity 組織オブジェクトが定義されていることを確認します。 必要に応じて、 組織の作成と管理に関する Google のドキュメントを参照してください。

    3. プロジェクトを作成します。 Google のドキュメント記事「 組織の作成と管理」を参照してください。 プロジェクトの親組織を定義する必要があります。 プロジェクトの作成時にプロジェクト ID を指定しない場合は、プロジェクト ID が自動的に生成されます。

    4. Google クラウドのプロジェクト ID をコピーします。 これは、Databricks ワークスペースを作成するために必要です。

    プロジェクトはあるが、その ID がわからない場合は、 Google クラウド Platform Console の [リソースの管理 ] ページに移動します。 プロジェクトを見つけて、その ID をコピーします。

  • クラスターを実行するためにワークスペースで使用する予定の Google クラウド プロジェクトには、適切なクォータが必要です。 プロジェクトに必要なリソースクォータを確認します。クォータの引き上げを要求し、承認を待つ必要がある場合があります。 クォータを変更する場合は、変更が有効になるまで 15 分待ってからワークスペースを作成します。 昇給をリクエストした場合は、クォータの更新の確認メールが届いてから 15 分待ちます。

  • ワークスペースの作成を準備するには、ワークスペースの作成に必要なアクセス許可を確認します。 「 必要なアクセス許可」を参照してください。

  • Google クラウド組織のポリシーでドメイン制限付き共有が有効になっている場合は、Databricks の Google クラウド顧客 ID (C01p0oudw) と自分の組織の顧客 ID の両方がポリシーの許可リストに含まれていることを確認します。 Google の記事「 組織ポリシーの設定」を参照してください。 サポートが必要な場合は、ワークスペースをプロビジョニングする前に Databricks アカウント チームにお問い合わせください。

Databricks フリートライアルと最初のワークスペースを設定する

注:

会社に契約サブスクリプションがある場合は、これらの手順を使用しないでください。 Google Marketplace プライベート オファーでサブスクリプションを作成する方法については、Databricks アカウント チームにお問い合わせください。

  1. Google クラウド Marketplace の Databricks リストに移動します。

    このページにアクセスする方法は他にもあります。 Google クラウド Marketplace Explorer に移動し、マーケットプレースの検索ボックスを使用して "Databricks" を検索し、[Databricks] をクリックします。また、Google クラウド コンソールに移動し、左側のナビゲーションの [パートナー ソリューション] で [Databricks] をクリックすることもできます。

  2. 上部のナビゲーションのプロジェクト ピッカーで、Databricks で使用する課金アカウントに関連付けられている Google クラウド プロジェクトを選択します。 これは、ワークスペースのデプロイに使用するプロジェクトと同じである必要はありません。

    Marketplace 登録情報プロジェクト ピッカー
  3. 価格、キャンセル、変更ポリシー、利用規約を確認します。

    Databricks は、Databricks ユニット (DBU) での Databricks の使用に対して課金されます。 ワークロードが消費する DBU の数は、Databricks コンピュートの種類 (汎用またはジョブ) や Google クラウド マシンの種類など、さまざまな要因によって異なります。 詳細については、 価格ページを参照してください。

    Google クラウド アカウントでは、追加費用が発生します。

    • Google クラウドは、Databricks がアカウント内の Databricks インフラストラクチャ用に作成する GKE クラスターに対して、ワークスペースごとの追加費用を請求します。 2021 年 3 月 30 日現在、この GKE クラスターの費用は約 $200/月で、GKE クラスターが実行した月の日数に比例配分されます。 価格は変更される可能性があるため、 最新の価格を確認してください。

    • GKE クラスターのコストは、Databricks クラスターがアイドル状態の場合でも適用されます。 このアイドル時間コストを削減するために、Databricks Runtime クラスターが 5 日間アクティブになっていない場合、Databricks はアカウント内の GKE クラスターを削除します。 VPC バケットや GCS バケットなどの他のリソースは変更されません。 次回 Databricks Runtime クラスターが起動すると、Databricks によって GKE クラスターが再作成され、Databricks Runtime クラスターの初期起動時間が長くなります。 GKE クラスタの削除によって毎月のコストがどのように削減されるかの例として、毎月 1 日に Databricks Runtime クラスターを使用し、残りの月は使用しなかったとします: GKE の使用量はアイドル タイムアウトが有効になるまでの 5 日間であり、それ以上は使用せず、その月の費用は約 33 ドルになります。

  4. ページの上部にある [ サブスクライブ] をクリックします。

  5. [注文の概要] ページで、次の操作を行います。

    1. サブスクリプション期間を選択します。

    2. 請求先アカウントを選択します。 ピッカーに表示される既定の請求先アカウントは、プレビュー ページの上部ナビゲーションで選択したプロジェクトに基づいています。 複数のプロジェクトにアクセスできる場合は、請求先アカウントの選択ツールに追加の請求先アカウント オプションが表示されます。

    3. 「利用規約」セクションをお読みください。

    4. チェックボックスをオンにして、課金と利用規約への同意を確認します。

    5. サブスクライブ」をクリックします。

  6. 「ご注文リクエストがDatabricksに送信されました」というポップアップで、 Databricksで登録するをクリックします。

  7. [Databricks へようこそ] ポップアップ ウィンドウで、次の操作を行います。

    1. 会社名を入力します。 Eメールアドレスは入力しないでください。

    2. [ Google でログイン] をクリックします。 Googleは、GoogleアカウントのEメールアドレスの選択をお願いする場合があります。

  8. ID を確認し、アクセスを確認すると、Google クラウド Marketplace に Databricks の一覧が表示されます。 上部にある青いボタン [ プロバイダーで管理] をクリックします。 上部の青いボタンに [Databricks で登録する] と表示されている場合は、数秒待ってから Web ページを再読み込みします。 青いボタンに 「プロバイダーで管理」と表示されるまで繰り返し、そのボタンをクリックします。

    大事な

    [プロバイダーで管理]をクリックして、サブスクリプションをアクティブ化することが重要です。

  9. [You're Leaving Google] ポップアップで、[ OK] をクリックします。 Googleアカウントのメールアドレスを選択し、本人確認を行う必要がある場合があります。

  10. プランを選択します。 最初はスタンダードプランですが、プレミアムプランにアップグレードできます。 さまざまな Databricks 価格プランを比較できます。 後で、アカウントのプランをアップグレードまたはダウングレードできます。 アップグレードとダウングレードはどちらも将来のワークスペースに影響しますが、既存のワークスペースのアップグレードとダウングレードのしくみには重要な違いがあります。 「 サブスクリプションプランを確認または変更する」を参照してください。

  11. Databricks アカウント コンソールが表示され、ワークスペースを作成および管理します。 アカウントコンソールの Web ページをブックマークしておくとよいでしょう。 「 Databricks アカウントの管理」を参照してください。

  12. Databricks アカウント コンソールで、 [ワークスペース の作成 ] をクリックして最初のワークスペースを作成します。 詳しくは、 アカウントコンソールを使用したワークスペースの作成 を参照してください。

ほとんどのアカウントでは、ワークスペースはデフォルトで Unity Catalog に対して有効になり、一元的なデータガバナンスと ID 管理が提供されます。 Unity Catalogは何ですか?」を参照してください。 Unity Catalogセットアップと管理

ワークスペース作成の考慮事項

ワークスペースを作成するときは、次の点を考慮してください。

  • 大規模なクラスターまたは多数のワークスペースを使用する予定の場合は、 ネットワーク サイジング計算ツールを使用して GKE サブネット範囲を計算し、ワークスペースに Databricks ジョブを実行するのに十分な IP 領域があることを確認します。

  • Databricks によってワークスペース用に起動される Google Kubernetes Engine (GKE) クラスターを変更またはカスタマイズしないでください。 クラスターをカスタマイズする必要がある場合は、Databricks アカウント チームに問い合わせて、そのような変更の安全性と長期的な保守可能性を確認してください。

Databricks ワークスペースにログインします

Databricks ワークスペース ユーザーは、OpenID Connect 仕様に準拠し、OpenID 認定を受けている Google の OAuth 2.0 実装を使用して、Google クラウド ID アカウント (または GSuite アカウント) で認証します。 Databricks は、Google への認証要求で openid プロファイル スコープ値を提供します。 必要に応じて、Google クラウド ID アカウント (または GSuite アカウント) を構成して、外部の SAML 2.0 ID プロバイダー (IdP) とフェデレーションし、ユーザーの資格情報を検証できます。 Google クラウド ID は、Microsoft Entra ID (旧称 Azure Active Directory)、Okta、Ping、およびその他の IdP とフェデレーションできます。 ただし、Databricks は Google Identity Platform APIsとのみ直接やり取りします。

Databricks には、ユーザー資格情報へのアクセスがありません。 このアーキテクチャでは、Databricks はユーザー資格情報にアクセスできないため、ユーザー資格情報の格納または保護に関連するリスクが軽減されます。

ワークスペース ユーザーがワークスペースにログインするには、次の 3 つの方法があります。

  • すべてのユーザーが自分のワークスペース URL を直接使用できる: 通常のユーザー、ワークスペース管理者、およびアカウント管理者は、ワークスペース URL を直接使用できます。 ユーザーは、Databricks と Google のクラウド Identity OAuth 2.0 実装との統合によって認証されます。 ユーザーがワークスペースに追加されると、ユーザーは URL を含む電子メールを受け取ります。

  • すべてのユーザーは、 Databricks アカウント コンソールからワークスペースにアクセスできます: Databricks ユーザー名 (Eメール アドレス) を使用してアカウント コンソールにログインし、[ ワークスペース ] タブに移動し、ワークスペースを見つけて [ 開く ] をクリックします。

  • アカウント管理者は、Google クラウド コンソールを使用してワークスペースにアクセスすることもできます。 アカウント管理者は、Google Identity OAuth 2.0 で認証して Databricks アカウント コンソールにアクセスします。 アカウントコンソールには、選択可能なワークスペースのリストが表示されます。 認証トークンを含むワークスペースのログインページにリダイレクトされます。 トークンが受け入れられると、再度ログインするように求められることはありません。 最初のログイン時に、OAuthスコープに同意するよう求められます。

次のステップ

次に取るステップは、アカウント組織とセキュリティの設定を続行するか、データパイプラインの構築を開始するかによって異なります。

  • アカウントの組織とセキュリティを構築します。 「Databricks 管理の開始」を参照してください。

  • ワークスペース内のデータへのアクセスの管理について学びます。 Unity Catalogは何ですか?」を参照してください。 。

  • ノートブック、コンピュート、ダッシュボード、クエリなどのワークスペース オブジェクトへのアクセスの管理について学びます。 アクセス制御リストを参照してください。

ヘルプを使用する

Databricks の設定について質問があり、ライブ ヘルプが必要な場合は、 onboarding-help@databricks.com に電子メールを送信してください。

Databricksサポートパッケージが利用できる場合は、Databricksを使用してサポートケースを開いて管理できます。「Databricksサポートの使用方法」を参照してください。

組織がDatabricksサポートを契約していない場合、または会社のサポートサブスクリプションの正規担当者でない場合は、DatabricksオフィスアワーまたはDatabricksコミュニティで質問に対する回答を見つけることができます。

さらにサポートが必要な場合は、毎週のライブデモにサインアップして、Databricksの専門家に質問をしたり、一緒に演習を行なってください。または、「環境を管理および保守するためのベストプラクティスに関するブログシリーズ」を参照してください。