Databricks のコンセプト
この記事では、Databricks を効果的に使用するために理解する必要がある基本的な概念を紹介します。
アカウントとワークスペース
Databricksはワークスペースはクラウド内の Databricks デプロイメントであり、チームが Databricksアセットにアクセスするための環境として機能します。ニーズに応じて、複数のワークスペースを使用するか、 1つのワークスペースのみ使用するかを選択することが可能です。
Databricks アカウント は、課金とサポートの目的で 1 つのエンティティを表します。 アカウントには、複数のワークスペースを含めることができます。
請求:Databricks ユニット(DBU)
Databricks は、VM インスタンス タイプに基づいた 1 時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいて課金されます。
Databricks on Google Cloud の価格ページを参照してください。
認証と承認
このセクションでは、Databricks IDとDatabricks アセットへのアクセスを管理する際に知っておくべき概念について説明します。
ユーザー
システムにアクセスできる一意の個人。 ユーザーのアイデンティティは電子メールアドレスで表されます。 「 ユーザーの管理」を参照してください。
サービスプリンシパル
サービスのアイデンティティであり、ジョブ、自動化ツール、スクリプト、アプリ、CI/CD プラットフォームなどのシステムで使用されます。 サービスプリンシパルはアプリケーション ID で表されます。 「サービスプリンシパルの管理」を参照してください。
グループ
アイデンティティのコレクションを表します。 グループを使用すると アイデンティティ管理が簡素化され、ワークスペース、データ、その他のセキュリティ保護可能なオブジェクトへのアクセスの割り当てが容易になります。 すべての Databricks アイデンティティはグループのメンバーとして割り当てることができます。 「グループの管理」を参照してください。
アクセス制御リスト(ACL)
ワークスペース、クラスター、ジョブ、テーブル、または実験に添付された権限のリスト。 ACL は、オブジェクトへのアクセスを許可するユーザーまたはシステム プロセスと、資産に対して許可される操作を指定します。 一般的な ACL の各エントリは、サブジェクトと操作を指定します。 アクセス制御リストを参照してください。
個人アクセストークン (PAT)
個人のアクセス トークンは、 REST API呼び出し、テクノロジー パートナー接続、およびその他のツールを認証するために使用される文字列です。 Databricks個人アクセストークン認証を参照してください。
Databricks インターフェイス
このセクションでは、Databricks 内のアセットにアクセスするためのインターフェイスについて説明します。
REST API
Databricks REST API は、Databricks アカウントとワークスペース オブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。 「アカウント参照」および「ワークスペース参照」を参照してください。
SQL REST API
SQL REST API を使用すると、SQL オブジェクト上のタスクを自動化できます。 SQL API を参照してください。
CLI
Databricks CLI はGitHubでホストされています。 CLI は Databricks REST API 上に構築されています。
データ管理
このセクションでは、機械学習アルゴリズムに入力し、分析を実行するデータを格納する論理オブジェクトについて説明します。 また、データオブジェクトを探索および管理するためのプラットフォーム内UIについても説明します。
Unity Catalog
Unity Catalog、 上のデータと 資産の統合ガバナンス ソリューションであり、AI Databricksワークスペース全体にわたる集中アクセス制御、監査、リネージ、およびデータ ディスカバリー機能を提供します。Databricks「Unity Catalog とは何ですか?」を参照してください。
DBFSルート
重要
DBFS ルートまたは DBFS マウントを使用したデータの格納とアクセスは非推奨のパターンであり、Databricks では推奨されません。 代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することを推奨しています。 「 Unity Catalog とは」を参照してください。
DBFSルートは、デフォルトですべてのユーザーが使用できるストレージの場所です。 「DBFS とは」を参照してください。
「カタログエクスプローラ」(Catalog Explorer)
Catalog Explorer を使用すると、スキーマ (データベース)、テーブル、モデル、ボリューム (非表形式データ)、関数、登録済み ML モデルなどのデータと AI アセットを探索および管理できます。 これを使用して、データ オブジェクトと所有者の検索、テーブル間のデータのリレーションシップの理解、アクセス許可と共有の管理を行うことができます。 「カタログエクスプローラとは」を参照してください。
データベース
表、ビュー、関数などのデータ・オブジェクトの集合で、簡単にアクセス、管理、および更新できるように編成されたもの。 「Databricks のスキーマとは何ですか?」を参照してください。
テーブル
構造化データの表現。 テーブルに対してクエリを実行するには、 Apache Spark SQL と Apache Spark APIsを使用します。 「テーブルとビューとは」を参照してください。
Delta テーブル
既定では、Databricksで作成されるすべてのテーブルはDeltaテーブルとなります。Deltaテーブルは、クラウドオブジェクトストア上の高性能 ACIDテーブルストレージのフレームワークである、 Delta Lake オープンソースプロジェクトに基づいています。Deltaテーブルは、データをクラウドオブジェクトストレージ上のファイルのディレクトリとして保存し、テーブルのメタデータをカタログおよびスキーマ内のメタストアに登録します。
もっと詳しく知るには、Delta としてブランド化されたテクノロジーを参照してください。
メタストア
データウェアハウス内のさまざまなテーブルとパーティションの構造情報(列と列タイプ情報、データの読み取りと書き込みに必要なシリアライザーとデシリアライザー、およびデータが格納されている対応するファイルを含む)をすべて格納するコンポーネント。 「メタストア」を参照
すべての Databricks デプロイメントには、テーブルメタデータを永続化するためにすべてのクラスターからアクセスできる中央 Hive メタストアがあります。既存の外部 Hive メタストアを使用するオプションもあります。
コンピューティング管理
このセクションでは、Databricks で計算を実行するために知っておく必要がある概念について説明します。
クラスター
ノートブックやジョブを実行するための、計算資源と設定のセットです。 クラスターには、汎用クラスターとジョブクラスターの2種類があります。 「 コンピュート」を参照してください。
All-Purposeクラスターは、UI、CLI、または REST APIを使用して作成します。All-Purpose クラスターは手動で終了・再起動することができます。複数のユーザーでクラスターを共有し、インタラクティブな分析を共同で行うことが可能です。
Databricks ジョブ スケジューラは、新しいジョブ クラスターでジョブを実行するとジョブ クラスターを作成し、ジョブが完了するとクラスターを終了します。ジョブ・クラスターを再始動 することはできません 。
プール
アイドル状態ですぐに使用できるインスタンスのセットであり、クラスターの起動時間と自動スケーリング時間を短縮するために使用します。 プールをアタッチすると、クラスターはドライバーノードとワーカーノードをプールから割り当てます。 「プール構成リファレンス」を参照してください。
クラスターの要求に対応するのに十分なアイドルリソースがプールにない場合、インスタンスプロバイダーから新しいインスタンスを割り当ててプールを拡張します。アタッチされたクラスターが終了すると、使用していたインスタンスはプールに戻され、別のクラスターで再利用できます。
Databricks Runtime
Databricksによって管理されるクラスターで実行される、コアコンポーネントのセットです。 「 コンピュート」を参照してください。 Databricksには次のランタイムがあります:
Databricks Runtime は、Apache Spark だけでなく、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを向上させる数多くのコンポーネントや更新プログラムを含みます。
Databricks Runtime for Machine LearningはDatabricks Runtime上に構築されており、Databricksワークスペースのすべての機能と統合された事前構築済みの機械学習インフラストラクチャを提供します。TensorFlow、Keras、PyTorch、XGBoostといった、複数の一般的なライブラリを含んでいます。
ジョブ
ノートブック、ライブラリ、およびその他のタスクの調整とスケジュール設定を行うための非対話型メカニズム。 「ワークフローのスケジュールと調整」を参照してください
パイプライン
Delta Live Tablesパイプラインは、信頼性が高く、保守可能で、テスト可能なデータ処理パイプラインを構築するための宣言型フレームワークを提供します。 「Delta Live Tables とは何ですか?」を参照してください。
ワークロード
ワークロードとは、タスクまたはタスクのグループを実行するために必要な処理能力の量です。 Databricks 、データエンジニアリング (ジョブ) と データ分析 (汎用) の 2 種類のワークロードを識別します。
データエンジニアリング:ジョブクラスター上で実行される(自動化された)ワークロードであり、Databricks ジョブスケジューラによって個々に作成されます。
データ分析:All-Purpose クラスター上で実行される(対話型の)ワークロードです。通常、対話型ワークロードは Databricks ノートブック内でコマンドを実行します。ただし、既存の All-Purpose クラスター上でのジョブの実行も対話型ワークロードとして扱われます。
データエンジニアリング
データエンジニアリング ツールは、 data scientists、データエンジニア、データアナリスト、機械学習エンジニア間のコラボレーションを支援します。
ワークスペース
ワークスペース は、すべての Databricks 資産にアクセスするための環境です。ワークスペースは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、エクスペリメント) を フォルダー に整理し、データ オブジェクトとコンピューティング リソースへのアクセスを提供します。
ノートブック
データサイエンスおよび機械学習のワークフローを作成するためのWeb ベースのインターフェイスです。実行可能なコマンド、ビジュアライゼーション、説明テキストを含めることができます 「Databricks ノートブック入門」を参照してください。
ライブラリ
クラスター上で実行されているノートブックまたはジョブで使用できるコード パッケージ。 Databricks ランタイムには多くのライブラリが含まれており、独自のライブラリをアップロードすることもできます。 ライブラリを参照してください。
Git フォルダー (以前の Repos)
コンテンツをリモートGitリポジトリに同期することによって、一緒にバージョン管理されるフォルダーです。 Databricks Git フォルダーはGitと統合され、プロジェクトのソースとバージョン管理を提供します。
AIと機械学習
Databricks 、 AIおよび機械学習アプリケーションの開発と展開のために、マネージド サービスを備えた統合されたエンドツーエンドの環境を提供します。
Mosaic AI
の生成 Databricks Mosaic AIにおける最大のブレークスルーを担う研究者とエンジニアのチームである ResearchDatabricksAI の製品とサービスのブランド名。Mosaic AI 製品には、Databricks の ML 機能と AI 機能が含まれています。 「 モザイク研究」を参照してください。
機械学習ランタイム
MLおよびAIモデルの開発を支援するために、 Databricks機械学習用のDatabricks Runtimeを提供します。これは、最も一般的なMLおよび DL ライブラリを含む、事前に構築された機械学習およびディープラーニング インフラストラクチャを使用してコンピュートの作成を自動化します。 また、ドライバーやサポートライブラリを含む組み込みの事前構成済み GPU サポートも備えています。 Databricks Runtimeリリースノートのバージョンと互換性に関する最新リリースに関する情報を参照してください。
エクスペリメント
機械学習モデルをトレーニングする MLflow ラン の集合を指します。「MLflow エクスペリメントを使用してトレーニングの実行を整理する」を参照してください。
機能
特徴は ML モデルの重要なコンポーネントです。 Feature Store 、組織全体での機能の共有と検出が可能になり、モデルのトレーニングと推論に同じ機能計算コードが使用されるようになります。 特徴量エンジニアリングとサービングを参照してください。
GenAI、基盤モデル、大規模言語モデル
Databricks Runtime for Machine Learning には、Hugging Face Transformers や LangChain などのライブラリが含まれており、事前トレーニング済みのモデルやオープンソース ライブラリをワークフローに統合できます。 独自のデータを使用して LLM を微調整し、アプリケーションのパフォーマンスを最適化できます。
モデルレジストリ
でDatabricks のホストMLflow Model RegistryUnity Catalog バージョンを提供します。Unity Catalogに登録されたモデルは、集中アクセス制御、リネージ、ワークスペース間の検出とアクセスを継承します。 「Unity Catalog でモデルのライフサイクルを管理する」を参照してください。
データウェアハウジング
データウェアハウジングとは、複数のソースからデータを収集して保存し、ビジネス分析やレポート作成のためにすぐにアクセスできるようにすることです。 Databricks SQL 、既存のデータレイクにデータウェアハウス機能とパフォーマンスをもたらすサービスのコレクションです。 Databricksの「データウェアハウジングとは何か?」を参照してください。 。
クエリ
クエリは、データを操作できる有効な SQL ステートメントです。 プラットフォーム内の SQLエディタを使用してクエリを作成することも、 SQLコネクタ、ドライバ、またはAPIを使用して接続することもできます。 クエリの操作方法の詳細については、「 保存されたクエリへのアクセスと管理 」を参照してください。
SQLウェアハウス
SQL クエリを実行する計算リソース。 SQLウェアハウスには、Classic、Pro、Serverレスの3種類があります。Databricks 可能な場合は、サーバレス ウェアハウスを使用することをお勧めします。 各ウェアハウス タイプで使用可能な機能を比較するには、SQLウェアハウス タイプを参照してください。
クエリ履歴
実行されたクエリとそのパフォーマンス特性のリスト。 クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定し、クエリの実行時間を最適化できます。 「 クエリ履歴」を参照してください。
ビジュアライゼーション
クエリーの実行結果をグラフィカルに表示したものを指します。「Databricks ノートブックにおけるビジュアライゼーション」を参照してください。
ダッシュボード
データの視覚化と解説のプレゼンテーション。 ダッシュボードを使用すると、Databricks アカウント内の任意のユーザーにレポートを自動的に送信できます。 Databricks Assistant を使用すると、自然な言語プロンプトに基づいて視覚化を構築できます。 「ダッシュボード」を参照してください。ノートブックからダッシュボードを作成することもできます。 ノートブックのダッシュボードを参照してください。
レガシーダッシュボードについては、「 レガシーダッシュボード」を参照してください。
重要
Databricks では、AI/BI ダッシュボード (旧称 Lakeview ダッシュボード) の使用を推奨しています。 以前のバージョンのダッシュボード (以前は Databricks SQL ダッシュボードと呼ばれていました) は、 レガシ ダッシュボードと呼ばれるようになりました。 Databricks では、新しいレガシ ダッシュボードを作成することはお勧めしません。
移行ツールまたは REST API を使用して、従来のダッシュボードを変換します。 組み込み移行ツールの使用手順については、「レガシーダッシュボードをAI/BI dashboardに複製する」を参照してください。REST API を使用したダッシュボードの作成と管理に関するチュートリアルについては 、ダッシュボードのチュートリアル を参照してください。