ユーザーガイド

Databricks Data Intelligence Platform は、組織全体のデータ実務家が、安全に管理された共有データアセットとツールを使用して、データソリューションを共同で生産化できるようにします。

この記事では、ユースケースの正しい開始点を特定するのに役立ちます。

Databricks の多くのタスクでは、昇格されたアクセス許可が必要です。多くの組織では、これらの昇格されたアクセス許可を少数のユーザーまたはチームに制限しています。この記事では、ほとんどのワークスペースユーザーが完了できるアクションと、特権ユーザーに限定されたアクションを明確にします。

ワークスペース管理者は、アセットへのアクセスをリクエストする必要があるか、昇格された権限をリクエストする必要があるかを判断するのに役立ちます。

データの検索とアクセス

このセクションでは、使用可能なデータ資産を見つけるのに役立つタスクの概要について説明します。これらのタスクのほとんどは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。「データアクセスの構成」を参照してください。

機能領域	リソース
データディスカバリー	データディスカバリータスクの詳細な概要については、「データの検出」を参照してください。
カタログ	カタログは、 Unity Catalog データガバナンスモデルの最上位オブジェクトです。カタログエクスプローラを使用して、テーブル、ビュー、およびその他のデータアセットを検索します。データベース・オブジェクトの探索を参照してください。標準カタログには、Unity Catalog スキーマ、テーブル、ボリューム、モデル、およびその他のデータベースオブジェクトが含まれています。カタログの作成を参照してください。フォーリンカタログには、外部システムからのフェデレーテッド・テーブルが含まれています。フォーリンカタログの管理と操作を参照してください。カタログオブジェクトには、データガバナンスの `hive_metastore`の代わりに組み込みレガシーを使用するテーブルが含まれています。Hive metastoreUnity Catalog「Unity Catalogと従来のHive metastoreの操作」を参照してください。
接続ストレージ	コンピュートリソースにアクセスできる場合は、組み込みコマンドを使用して、接続されたストレージ内のファイルを探索できます。ストレージの探索とデータファイルの検索を参照してください。
ローカルファイルのアップロード	デフォルトでは、ユーザーには、CSV などの小さなデータファイルをローカルマシンからアップロードする権限があります。「ファイルのアップロードを使用したテーブルの作成または変更」を参照してください。

データの操作

このセクションでは、一般的なデータタスクと、それらのタスクの実行に使用されるツールの概要について説明します。

説明されているすべてのタスクについて、ユーザーはツール、コンピュートリソース、データ、およびその他のワークスペースアーティファクトに対する適切なアクセス許可を持っている必要があります。「データアクセスの構成」および「ワークスペースとインフラストラクチャの構成」を参照してください。

機能領域	リソース
データベース・オブジェクト	Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベースオブジェクトを使用して、データを安全に管理します。「Databricks のデータベースオブジェクト」を参照してください。
データ権限	Unity Catalog は、有効なワークスペースでのすべての読み取りおよび書き込み操作を制御します。これらの操作を完了するには、適切なアクセス許可が必要です。「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。
ETL	抽出、変換、読み込み (ETL) ワークロードは、Apache Spark と Databricks の最も一般的な用途の 1 つであり、ほとんどのプラットフォームには ETL 用に構築および最適化された機能があります。「Databricks で初めての ETL ワークロードを実行する」を参照してください。
クエリー	すべての変換、レポート、分析、またはモデルトレーニングの実行は、テーブル、ビュー、またはデータファイルに対するクエリから始まります。データのクエリは、バッチ処理またはストリーム処理のいずれかを使用して行うことができます。「データのクエリ」を参照してください。 SQL クエリエディタまたはノートブックを使用してアドホッククエリを実行し、テーブル、ビュー、およびその他のデータ資産に対してクエリを実行します。「SQL エディターでのクエリの記述とデータの探索」および「Databricks ノートブックの概要」を参照してください。
ダッシュボード & 知見	AI/BI ダッシュボードを使用すると、UIで簡単に知見を抽出して視覚化できます。「ダッシュボード」を参照してください。 Genie spaces テキストプロンプトを使用して質問に答え、データから得られる知見を提供します。 AI/BI Genieスペースとはを参照してください。
インジェスト	Auto Loader を Delta Live Tables ジョブまたは構造化ストリーミングジョブと共に使用して、クラウドオブジェクトストレージからデータを増分的に取り込むことができます。「Auto Loaderとは」を参照してください。 Delta Live Tables または構造化ストリーミングを使用して、Kafkaなどのメッセージキューからデータを取り込むことができます。ストリーミングデータのクエリを参照してください。
Transformations：トランスフォーメーション	Databricks は、SQL CTAS ステートメントからほぼリアルタイムのストリーミングアプリケーションまで、さまざまな複雑さの変換に共通の構文とツールを使用します。データ変換の概要については、「データの変換」を参照してください。 DDL と DML の SQL クエリの使用については、「保存されたクエリへのアクセスと管理」を参照してください。 PySpark の概要については、 Databricks 上の PySpark を参照してください。構造化ストリーミングの詳細については、「Databricks でのストリーミング」を参照してください
AIと機械学習	Databricks Data Intelligence Platform は、データサイエンス、機械学習、AI アプリケーションのための一連のツールを提供します。「Databricks の AI と機械学習」をご覧ください。

データアクセスを構成する

ほとんどの Databricks ワークスペースは、ワークスペース管理者またはその他のパワーユーザーに依存して、外部データソースへの接続を構成し、チームのメンバーシップ、リージョン、またはロールに基づいてデータアセットへの権限を適用します。このセクションでは、昇格されたアクセス許可を必要とするデータアクセスを構成および制御するための一般的なタスクの概要について説明します。

注：

データソースへの新しい接続を設定するために昇格されたアクセス許可をリクエストする前に、既存の接続、カタログ、またはテーブルに対する権限が不足しているだけかどうかを確認してください。データソースが利用できない場合は、ワークスペースに新しいデータを追加するためのポリシーについて、組織に問い合わせてください。

機能領域

リソース

Unity Catalog

Unity Catalog は、Databricks Data Intelligence Platform に組み込まれたデータガバナンス機能を強化します。「Unity Catalog とは」を参照してください。

Databricks アカウント管理者、ワークスペース管理者、メタストア管理者には、ユーザーの Unity Catalog データ特権を管理するためのデフォルトの特権があります。「Unity Catalog での特権の管理」を参照してください。

接続とアクセス

クラウドオブジェクトストレージへの安全な接続の設定は、重要なアクティビティであり、ほぼすべての管理者およびエンドユーザー関連のタスクの前提条件です。「Unity Catalog を使用してクラウドストレージへのアクセスを管理する」を参照してください。

外部システムへの接続をレイクハウスフェデレーションで設定します。「レイクハウスフェデレーションのセットアップの概要」を参照してください。
Unity Catalog は、オープンソース APIsを使用して外部システムからのアクセスを提供するようにデータガバナンスを拡張します。「外部システムを使用した Databricks データへのアクセス」を参照してください。
サービス資格情報を使用すると、管理者はクラウドプロバイダーで定義されたアクセス許可を Unity Catalog にリンクできるため、ユーザーは統合システムでワークロードを開発するときにこれらの資格情報を活用できます。「サービス資格情報を使用して外部クラウドサービスへのアクセスを管理する」を参照してください。

Delta Sharingは、Databricks Databricks Marketplaceとクリーンルームを含む安全なデータ共有プラットフォームの中核です。「データと AI アセットを他の組織のユーザーと安全に共有する」を参照してください。

管理者は新しいカタログを作成できます。カタログは、データ分離のための高レベルの抽象化を提供し、個々のワークスペースに関連付けることも、アカウント内のすべてのワークスペース間で共有することもできます。カタログの作成を参照してください。
AI/BI ダッシュボードでは、オーナーが公開時に認証情報を埋め込むように促し、閲覧者が共有結果から知見を得ることができるようにします。詳細については、「ダッシュボードの共有」を参照してください。

ワークスペースとインフラストラクチャを構成する

このセクションでは、ワークスペース資産とインフラストラクチャの管理に関連する一般的なタスクの概要について説明します。広義に定義すると、ワークスペース資産には次のものが含まれます。

コンピュートリソース: コンピュートリソースには、All-purpose Interactive クラスタリング、 SQLウェアハウス、ジョブクラスタリング、およびパイプラインコンピュートが含まれます。ユーザーまたはワークロードは、指定されたロジックを処理するために、実行中のコンピュートリソースに接続するためのアクセス許可を持っている必要があります。

注：

コンピュートリソースに接続するためのアクセス権を持たないユーザーは、 Databricksで非常に限られた機能しか使用できません。
プラットフォームツール:Databricks Data Intelligence Platformは、ノートブック、Databricks SQL、Mosaic AIなど、さまざまなユースケースやペルソナに合わせたツールスイートを提供します。管理者は、これらのツールの多くに対するデフォルトの動作、オプション機能、およびユーザーアクセスを含む設定をカスタマイズできます。
アーティファクト: アーティファクトには、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。アーティファクトには、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれています。

重要

ワークスペースアセットを作成するユーザーには、デフォルトで 所有者 ロールが割り当てられます。ほとんどのアセットでは、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。

データとコードのセキュリティを確保するために、 Databricks は、本番運用ワークスペースにデプロイされたすべてのアーティファクトとコンピュートリソースに対して所有者ロールを構成することをお勧めします。

機能領域	リソース
ワークスペースのエンタイトルメント	ワークスペースのエンタイトルメントには、基本的なワークスペースアクセス、 Databricks SQLへのアクセス、無制限のクラスタリング作成が含まれます。「エンタイトルメントの管理」を参照してください。
コンピュートリソース access & ポリシー	Databricksのコストのほとんどは、コンピュートリソースのコストです。さまざまなリソースを構成、デプロイ、開始、および使用できるユーザーを制御することは、コストを管理するために不可欠です。「All Purpose への接続」および「ジョブコンピュート」を参照してください。コンピュートポリシーは、ワークスペースコンピュートエンタイトルメントと連携して動作し、エンタイトルメントを持つユーザーが指定された構成ルールに従ってのみコンピュートリソースをデプロイするようにします。「コンピュートポリシーの作成と管理」を参照してください。管理者は、デフォルト動作、データアクセスポリシー、および SQLウェアハウスへのユーザーアクセスを構成できます。ウェアハウスSQL管理設定を参照してください。
プラットフォームツール	管理コンソールを使用して、ワークスペースの外観のカスタマイズから製品や機能の有効化または無効化まで、さまざまな動作を設定します。「ワークスペースの管理」を参照してください。
ワークスペース ACL	ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピュートリソース、コードアーティファクト、ジョブなどのワークスペースアセットと対話する方法を制御します。アクセス制御リストを参照してください。

ワークロードの運用化

すべての Databricks 製品は、開発から本番運用までの道のりを加速し、スケールと安定性のために構築されています。このセクションでは、ワークロードを本番運用に取り込むために推奨される一連のツールについて簡単に紹介します。

機能領域	リソース
ETL パイプライン	Delta Live Tables パイプラインには、ETL パイプラインを構築および運用化するための宣言型構文が用意されています。「Delta Live Tables とは」を参照してください。
オーケストレーション	ジョブを使用すると、依存関係、トリガー、スケジュールを含む複雑なワークフローを定義できます。「Databricks のオーケストレーションの概要」を参照してください。
CI/CD	Databricks アセットバンドルを使用すると、ワークスペース間でデータ、アセット、アーティファクトを簡単に管理およびデプロイできます。「Databricks アセットバンドルとは」を参照してください。