ユーザーガイド

Databricks Data Intelligence Platform は、組織全体のデータ実務家が、安全に管理された共有データアセットとツールを使用して、データソリューションを共同で生産化できるようにします。

この記事では、ユースケースの正しい開始点を特定するのに役立ちます。

Databricks の多くのタスクでは、昇格されたアクセス許可が必要です。 多くの組織では、これらの昇格されたアクセス許可を少数のユーザーまたはチームに制限しています。 この記事では、ほとんどのワークスペース ユーザーが完了できるアクションと、特権ユーザーに限定されたアクションを明確にします。

ワークスペース管理者は、アセットへのアクセスをリクエストする必要があるか、昇格された権限をリクエストする必要があるかを判断するのに役立ちます。

データの検索とアクセス

このセクションでは、使用可能なデータ資産を見つけるのに役立つタスクの概要について説明します。 これらのタスクのほとんどは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。 「データ アクセスの構成」を参照してください。

機能領域

リソース

データディスカバリー

データディスカバリー タスクの詳細な概要については、「 データの検出」を参照してください。

カタログ

カタログは、 Unity Catalog データガバナンス モデルの最上位オブジェクトです。 カタログエクスプローラを使用して、テーブル、ビュー、およびその他のデータアセットを検索します。データベース・オブジェクトの探索を参照してください。

  • 標準カタログには、Unity Catalog スキーマ、テーブル、ボリューム、モデル、およびその他のデータベース オブジェクトが含まれています。 カタログの作成を参照してください。

  • フォーリンカタログには、外部システムからのフェデレーテッド・テーブルが含まれています。 フォーリンカタログの管理と操作を参照してください。

  • カタログオブジェクトには、データガバナンスの hive_metastoreの代わりに組み込みレガシー を使用するテーブルが含まれています。Hive metastoreUnity Catalog「Unity Catalogと従来のHive metastoreの操作」を参照してください。

接続ストレージ

コンピュート リソースにアクセスできる場合は、組み込み コマンドを使用して、接続されたストレージ内のファイルを探索できます。 ストレージの探索とデータファイルの検索を参照してください。

ローカルファイルのアップロード

デフォルトでは、ユーザーには、CSV などの小さなデータファイルをローカルマシンからアップロードする権限があります。 「ファイルのアップロードを使用したテーブルの作成または変更」を参照してください。

データの操作

このセクションでは、一般的なデータ タスクと、それらのタスクの実行に使用されるツールの概要について説明します。

説明されているすべてのタスクについて、ユーザーはツール、コンピュート リソース、データ、およびその他のワークスペース アーティファクトに対する適切なアクセス許可を持っている必要があります。 「データ アクセスの構成」および「ワークスペースとインフラストラクチャの構成」を参照してください。

機能領域

リソース

データベース・オブジェクト

Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベース オブジェクトを使用して、データを安全に管理します。 「Databricks のデータベース オブジェクト」を参照してください

データ権限

Unity Catalog は、有効なワークスペースでのすべての読み取りおよび書き込み操作を制御します。 これらの操作を完了するには、適切なアクセス許可が必要です。 「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。

ETL

抽出、変換、読み込み (ETL) ワークロードは、Apache Spark と Databricks の最も一般的な用途の 1 つであり、ほとんどのプラットフォームには ETL 用に構築および最適化された機能があります。 「Databricks で初めての ETL ワークロードを実行する」を参照してください

クエリー

  • すべての変換、レポート、分析、またはモデル トレーニングの実行は、テーブル、ビュー、またはデータ ファイルに対するクエリから始まります。 データのクエリは、バッチ処理またはストリーム処理のいずれかを使用して行うことができます。 「データのクエリ」を参照してください。

ダッシュボード & 知見

  • Genie spaces テキストプロンプトを使用して質問に答え、データから得られる知見を提供します。 AI/BI Genieスペースとはを参照してください。

インジェスト

  • Auto Loader を Delta Live Tables ジョブまたは構造化ストリーミング ジョブと共に使用して、クラウド オブジェクト ストレージからデータを増分的に取り込むことができます。 「Auto Loaderとは」を参照してください。

  • Delta Live Tables または構造化ストリーミングを使用して、Kafkaなどのメッセージキューからデータを取り込むことができます。ストリーミングデータのクエリを参照してください。

Transformations:
トランスフォーメーション

Databricks は、SQL CTAS ステートメントからほぼリアルタイムのストリーミング アプリケーションまで、さまざまな複雑さの変換に共通の構文とツールを使用します。 データ変換の概要については、「 データの変換」を参照してください。

AIと機械学習

Databricks Data Intelligence Platform は、データサイエンス、機械学習、AI アプリケーションのための一連のツールを提供します。 「Databricks の AI と機械学習」をご覧ください。

データ アクセスを構成する

ほとんどの Databricks ワークスペースは、ワークスペース管理者またはその他のパワーユーザーに依存して、外部データソースへの接続を構成し、チームのメンバーシップ、リージョン、またはロールに基づいてデータアセットへの権限を適用します。 このセクションでは、昇格されたアクセス許可を必要とするデータ アクセスを構成および制御するための一般的なタスクの概要について説明します。

注:

データソースへの新しい接続を設定するために昇格されたアクセス許可をリクエストする前に、既存の接続、カタログ、またはテーブルに対する権限が不足しているだけかどうかを確認してください。 データソースが利用できない場合は、ワークスペースに新しいデータを追加するためのポリシーについて、組織に問い合わせてください。

機能領域

リソース

Unity Catalog

  • Unity Catalog は、Databricks Data Intelligence Platform に組み込まれたデータガバナンス機能を強化します。 「Unity Catalog とは」を参照してください。

  • Databricks アカウント管理者、ワークスペース管理者、メタストア管理者には、ユーザーの Unity Catalog データ特権を管理するためのデフォルトの特権があります。 「Unity Catalog での特権の管理」を参照してください。

接続とアクセス

共有

  • 管理者は新しいカタログを作成できます。 カタログは、データ分離のための高レベルの抽象化を提供し、個々のワークスペースに関連付けることも、アカウント内のすべてのワークスペース間で共有することもできます。 カタログの作成を参照してください。

  • AI/BI ダッシュボードでは、オーナーが公開時に認証情報を埋め込むように促し、閲覧者が共有結果から知見を得ることができるようにします。 詳細については、「 ダッシュボードの共有」を参照してください。

ワークスペースとインフラストラクチャを構成する

このセクションでは、ワークスペース資産とインフラストラクチャの管理に関連する一般的なタスクの概要について説明します。 広義に定義すると、ワークスペース資産には次のものが含まれます。

  • コンピュート リソース: コンピュート リソースには、All-purpose Interactive クラスタリング、 SQLウェアハウス、ジョブ クラスタリング、およびパイプライン コンピュートが含まれます。 ユーザーまたはワークロードは、指定されたロジックを処理するために、実行中のコンピュート リソースに接続するためのアクセス許可を持っている必要があります。

    注:

    コンピュート リソースに接続するためのアクセス権を持たないユーザーは、 Databricksで非常に限られた機能しか使用できません。

  • プラットフォームツール:Databricks Data Intelligence Platformは、ノートブック、Databricks SQL、Mosaic AIなど、さまざまなユースケースやペルソナに合わせたツールスイートを提供します。 管理者は、これらのツールの多くに対するデフォルトの動作、オプション機能、およびユーザーアクセスを含む設定をカスタマイズできます。

  • アーティファクト: アーティファクトには、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。 アーティファクトには、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれています。

重要

ワークスペースアセットを作成するユーザーには、デフォルトで 所有者 ロールが割り当てられます。 ほとんどのアセットでは、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。

データとコードのセキュリティを確保するために、 Databricks は、本番運用ワークスペースにデプロイされたすべてのアーティファクトとコンピュート リソースに対して所有者ロールを構成することをお勧めします。

機能領域

リソース

ワークスペースのエンタイトルメント

ワークスペースのエンタイトルメントには、基本的なワークスペース アクセス、 Databricks SQLへのアクセス、無制限のクラスタリング作成が含まれます。 「エンタイトルメントの管理」を参照してください

コンピュート リソース access & ポリシー

  • Databricksのコストのほとんどは、コンピュート リソースのコストです。さまざまなリソースを構成、デプロイ、開始、および使用できるユーザーを制御することは、コストを管理するために不可欠です。 「All Purpose への接続」および「ジョブ コンピュート」を参照してください。

  • コンピュート ポリシーは、ワークスペース コンピュート エンタイトルメントと連携して動作し、エンタイトルメントを持つユーザーが指定された構成ルールに従ってのみコンピュート リソースをデプロイするようにします。 「コンピュート ポリシーの作成と管理」を参照してください。

  • 管理者は、デフォルト動作、データ アクセス ポリシー、および SQLウェアハウスへのユーザー アクセスを構成できます。 ウェアハウスSQL管理設定を参照してください。

プラットフォームツール

管理コンソールを使用して、ワークスペースの外観のカスタマイズから製品や機能の有効化または無効化まで、さまざまな動作を設定します。 「 ワークスペースの管理」を参照してください。

ワークスペース ACL

ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピュート リソース、コード アーティファクト、ジョブなどのワークスペース アセットと対話する方法を制御します。 アクセス制御リストを参照してください。

ワークロードの運用化

すべての Databricks 製品は、開発から本番運用までの道のりを加速し、スケールと安定性のために構築されています。 このセクションでは、ワークロードを本番運用に取り込むために推奨される一連のツールについて簡単に紹介します。

機能領域

リソース

ETL パイプライン

Delta Live Tables パイプラインには、ETL パイプラインを構築および運用化するための宣言型構文が用意されています。 「Delta Live Tables とは」を参照してください。

オーケストレーション

ジョブを使用すると、依存関係、トリガー、スケジュールを含む複雑なワークフローを定義できます。 「Databricks のオーケストレーションの概要」を参照してください。

CI/CD

Databricks アセットバンドルを使用すると、ワークスペース間でデータ、アセット、アーティファクトを簡単に管理およびデプロイできます。 「Databricks アセットバンドルとは」を参照してください。