Databricks の技術用語集
A
アクセス制御リスト (ACL)
ワークスペース、クラスター、ジョブ、テーブル、またはエクスペリメントにアタッチされたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可するユーザーまたはシステムプロセスと、アセットに対して許可される操作を指定します。 一般的な ACL の各エントリは、サブジェクトと操作を指定します。 アクセス制御リストを参照してください。
ACIDトランザクション
確実に処理されるデータベース・トランザクション。 ACIDは、原子性、一貫性、分離性、耐久性の頭文字をとったものです。 「信頼性に関するベストプラクティス」を参照してください。
人工知能(AI)
コンピューターの知的な人間の行動を模倣する能力。 「Databricks の AI と機械学習」をご覧ください。
異常検出
データセットで予想される動作に準拠していない異常なパターンを特定するために使用される手法とツール。 Databricksは、機械学習とデータ処理機能を通じて異常検出を促進します。
Apache Spark
ビッグデータワークロードに使用されるオープンソースの分散コンピューティングシステム。 「Databricks 上の Apache Spark」を参照してください。
人工ニューラルネットワーク(ANN)
ヒトの脳内のニューロンの働きを模倣した計算システム。
アセット
Databricks ワークスペース内のエンティティ (オブジェクトやファイルなど)。
監査ログ
Databricks環境内のユーザーのアクティビティとアクションの記録は、セキュリティ、コンプライアンス、および運用監視に不可欠です。監査ログのリファレンスを参照してください。
Auto Loader
新しいデータファイルがクラウドストレージに到着したときに、追加の設定なしで段階的かつ効率的に処理するデータ取り込み機能。 「Auto Loaderとは」を参照してください。
AutoML
Databricksの機能は、最適なアルゴリズムとハイパーパラメーター構成を自動的に見つけることで、データセットに機械学習を適用するプロセスを簡素化します。 「AutoML とは」を参照してください。
自動化されたデータリネージ
データの発生源からさまざまな変換を経て最終的な形式に至るまでのデータの流れを自動的に追跡および視覚化するプロセスで、デバッグ、コンプライアンス、およびデータの依存関係の理解に不可欠です。 Databricksは、データリネージツールとの統合を通じてこれを促進します。
オートスケール, 水平
エグゼキューターを追加または削除するには、スケジュールを待機しているタスクの数に基づいて設定します。 これは、1 回の更新中に動的に行われます。
オートスケール, 垂直
マシン (ドライバーまたはエグゼキューター) のサイズを、メモリの負荷 (またはメモリ不足) に基づいて増減すること。 これは、新しい更新の開始時にのみ発生します。
Azure Databricks
Microsoft Azure クラウド プラットフォーム用に最適化された Databricks のバージョン。
B
バッチ処理
固定量の静的で変更されないデータを 1 つの操作として処理するための明示的な命令を定義できるデータ処理方法。 Databricks は Spark SQL または DataFramesを使用します。 ストリーミングと増分インジェストを参照してください。
ビジネスインテリジェンス(BI)
企業がビジネス情報のデータ分析と管理に使用する戦略とテクノロジー。
C
カタログエクスプローラー
データ、スキーマ (データベース)、テーブル、モデル、関数、およびその他の AI 資産を探索および管理するための UI を提供する Databricks 機能。 これを使用して、データ オブジェクトと所有者の検索、テーブル間のデータ リレーションシップの理解、アクセス許可と共有の管理を行うことができます。 「カタログエクスプローラとは」を参照してください。
CICD または CI/CD
継続的インテグレーション (CI) と継続的デリバリー (CD) を組み合わせたプラクティス。 「Databricks の CI/CD とは」を参照してください。
データのクリーニング
データクレンジング プロセス (レコード セット、テーブル、またはデータベースから破損または不正確なレコードを検出して修正 (または削除) するプロセス) を通過したデータ。データの不完全、不正確、不正確、または無関係な部分を特定し、ダーティ データまたは粗いデータを交換、変更、または削除することを指します。
クラウドプラットフォームプロバイダー
クラウドコンピューティングプラットフォームを提供する会社。 たとえば、 Microsoft Azure、 Amazon Web サービス (AWS)、Google クラウド プラットフォーム (GCP) などです。
クラスター
ノートブック、ジョブ、および Delta Live Tablesで使用される非サーバレス コンピュート リソース コンピュート という用語は、Databricks UI 全体で クラスター に置き換わりましたが、クラスターAPI とメタデータでは引き続き使用されています。
コンピュート
コンピュートリソースとは、ハードウェアであれソフトウェアであれ、データの受信・分析・保存を通じて課題解決やソリューション創出を可能にするインフラ要素を指します。 コンピュート.
連続パイプライン
新しいデータが入力に到着すると、停止せずにすべてのテーブルを継続的に更新するパイプライン。 「トリガー パイプライン モードと継続的パイプライン モード」を参照してください。
D
有向非巡回グラフ (DAG)
ワークフローまたはパイプライン内のタスク間の依存関係を表す方法。 DAG 処理モデルでは、タスクは有向非巡回グラフのノードとして表され、エッジはタスク間の依存関係を表します。
データカタログ
データソースを管理するためのメタデータ管理ツールで、データの構造、場所、使用状況に関する情報を提供します。 Databricks は外部データカタログと統合して、メタデータ管理を強化します。
データガバナンス
データの可用性、整合性、セキュリティ、およびユーザビリティを管理するプラクティスであり、データの品質およびコンプライアンスを確保するためのポリシー、手順およびテクノロジーが含まれます。
データ取り込み
さまざまなソースからデータを Databricks にインポート、転送、読み込み、処理して、保存、分析、処理するプロセス。
データレイク
必要になるまで大量の生データをネイティブ形式で保持する大規模なストレージリポジトリ。
データレイクハウス
データレイクとデータウェアハウスのメリットを組み合わせたデータマネジメントシステム。 データレイクハウスは、機械学習(ML)やビジネスインテリジェンス(BI)など、さまざまなワークロードを処理するための孤立したシステムを避けたい現代の組織に、スケーラブルなストレージと処理機能を提供します。 データレイクハウスは、真実の単一のソースを確立し、冗長なコストを排除し、データの鮮度を確保するのに役立ちます。 「データレイクハウスとは」を参照してください。
データパイプライン
データの生成、収集、処理、および宛先への移動を行う一連のステージ。 Databricks は、バッチおよびリアルタイムデータ処理のための複雑なデータパイプラインの作成と管理を容易にします。
データプライバシー
個人データを不正なアクセス、使用、開示、または盗難から保護するプラクティス。 Databricks では、エンドツーエンドの暗号化、役割ベースのアクセス制御、主要なデータ保護規則とのコンプライアンスなど、堅牢なデータ プライバシーおよびセキュリティ機能を強調して、機密情報を保護し、データガバナンスを確保しています。
データの可視化
アプリケーションがデータを取得および操作できるようにするアプローチで、データの形式や物理的な場所など、データに関する技術的な詳細は必要ありません。 Databricks は、異なるソース間でデータへのシームレスなアクセスと分析を提供することで、データ仮想化レイヤーの一部として機能します。
データウェアハウジング
複数のソースからデータを収集して保存し、ビジネスの知見やレポート作成のためにすばやくアクセスできるようにすることを指します。 レイクハウスのアーキテクチャと Databricks SQL は、クラウドデータウェアハウジングの機能をデータレイクにもたらします。 Databricksのデータウェアハウジングとはを参照してください。
Databricks
エンタープライズグレードのデータ分析を構築、デプロイ、共有、保守するための統合されたオープン アナリティクス プラットフォームであり、 AI ソリューションを大規模に構築します。 Databricks Data Intelligence Platform は、クラウドアカウントのクラウドストレージとセキュリティと統合し、ユーザーに代わってクラウドインフラストラクチャを管理およびデプロイします。 「Databricks とは」を参照してください。
Databricks AI/BI
データのセマンティクスを理解し、セルフサービスのデータ分析を可能にするビジネスインテリジェンス製品。 AI/BIは、Databricks ETLパイプライン、リネージ、その他のクエリを含む プラットフォーム全体のデータのライフサイクル全体から知見を引き出す複合AIシステム上に構築されています。「Databricks AI/BI とは」を参照してください。
Databricks アセット バンドル (DAB)
ソース管理、コードレビュー、テスト、継続的インテグレーションとデリバリー(CI/CD)など、ソフトウェアエンジニアリングのベストプラクティスをデータおよびAIプロジェクトに導入するためのツール。 バンドルを使用すると、ジョブ、パイプライン、ノートブックなどの Databricks リソースをソース ファイルとして記述できます。 「Databricks アセットバンドルとは」を参照してください。
Databricksアシスタント
AIベースのペアプログラマーであり、ノートブック、クエリ、ダッシュボード、ファイルの作成をより効率的にするサポートエージェントです。 コードとクエリの生成、最適化、完了、説明、修正を行うことで、質問に迅速に回答するのに役立ちます。 「Databricks Assistant とは」を参照してください。
Databricks CLI
Databricks のコマンドライン インターフェイスで、ユーザーは Databricks ワークスペースを管理および自動化し、ジョブ、ノートブック、ライブラリをデプロイできます。 「Databricks CLI とは」を参照してください。
Databricks Connect
開発者がお気に入りの IDEsやノートブックなどのツールを Databricks コンピュートに接続し、 Spark コードをリモートで実行できるクライアントライブラリです。 「Databricks Connect とは」を参照してください。
Databricks Marketplace
データ製品を交換するためのオープンフォーラム。 プロバイダーは Databricks アカウントを持っている必要がありますが、受信者は誰でもかまいません。 Marketplace アセットには、データセット、 Databricks ノートブック、 Databricks ソリューション アクセラレータ、機械学習 (AI) モデルが含まれます。 データセットは通常、表形式データのカタログとして使用できますが、Databricks ボリュームの形式で表形式以外のデータもサポートされています。 「Databricks Marketplace とは」を参照してください。
Databricks Runtime
ビッグデータ分析用に最適化されたランタイム。 Databricks では、機械学習ワークロード用に最適化された Databricks Runtime for Machine Learning も提供しています。 Databricks Runtime リリースノートと Databricks Runtime リリースノートのバージョンと互換性を参照してください。
Databricks SQL (DBSQL)
既存のデータレイクにデータウェアハウジングの機能とパフォーマンスをもたらすサービスのコレクションです。 Databricks SQL では、オープン形式と標準の ANSI SQL がサポートされています。 プラットフォーム内の SQL エディターとダッシュボードツールにより、チームメンバーはワークスペース内で他の Databricks ユーザーと直接コラボレーションできます。 Databricksのデータウェアハウジングとはを参照してください。
DatabricksIQ
Databricks プラットフォームを支えるデータインテリジェンスエンジン。 これは、AIモデルの使用、検索、ランク付け、およびパーソナライゼーションシステムを組み合わせて、組織のデータと使用パターンのセマンティクスを理解する複合AIシステムです。 「Databricks IQ を利用した機能」を参照してください。
DBU
Databricksユニット(DBU)は、測定および価格目的で使用されるDatabricksレイクハウスプラットフォーム上の処理能力の正規化された単位です。ワークロードが消費する DBU の数は、処理メトリクス (使用されるコンピュート リソースや処理されたデータの量など) によって決まります。 「Databricks の概念」を参照してください。
DataFrame
スプレッドシートのように、データを行と列の 2 次元テーブルに整理するデータ構造。 DataFrames は、データを保存および操作するための柔軟で直感的な方法であるため、最新のデータ分析で使用される最も一般的なデータ構造の1つです。 「チュートリアル: Apache Spark DataFrames を使用したデータの読み込みと変換」を参照してください。
データセット
分析または処理のために整理および保存されるデータの構造化されたコレクション。 データセット内のデータは、通常、何らかの方法で関連しており、単一のソースから取得されるか、単一のプロジェクトを対象としています。
Delta Lake
データレイクに信頼性をもたらすオープンソースのストレージレイヤー。 Delta Lake は、 ACIDトランザクション、スケーラブルなメタデータ処理を提供し、ストリーミングとバッチ データ処理を統合します。 「Delta Lake とは」を参照してください。
Delta Live Tables(DLT)
信頼性、保守性、テスト性に優れたデータ処理パイプラインを構築するための宣言型フレームワーク。 データに対して実行する変換を定義すると、Delta Live Tables はタスクのオーケストレーション、クラスター管理、モニタリング、データ品質、およびエラー処理を管理します。 「Delta Live Tables とは」を参照してください。
Delta Live Tables データセット
ストリーミング テーブル、マテリアライズドビュー、および宣言型クエリの結果として保持されるビュー。
Delta Sharing
Databricks のデータと AI アセットを、Databricks を使用しているかどうかに関係なく、組織外のユーザーと共有できます。 また、表形式データを共有するためのオープンソースプロジェクトとしても利用でき、Databricks で使用すると、非表形式、非構造化データ(ボリューム)、AI モデル、ビュー、フィルタリングされたデータ、ノートブックを共有する機能が追加されます。 「Delta Sharing とは」を参照してください。
Delta テーブル
Databricksのデフォルトデータテーブル形式は、Delta Lakeオープンソースデータフレームワークの機能です。Delta テーブルは通常、データがストリーミングまたは大規模なバッチで取り込まれるデータレイクに使用されます。 「テーブルとビューとは」を参照してください。
E
ETL (抽出, 変換, ロード)
ソースからデータを抽出し、それをターゲットシステムにロードし、ターゲットシステム内で変換するデータ統合への最新のアプローチ。 「Databricks で初めての ETL ワークロードを実行する」を参照してください。
F
Feature Store
機械学習モデルの機能を保存、管理、提供するための中央リポジトリ。 「特徴量エンジニアリングとサービング」を参照してください。
フロー
フローは、データを読み取り、変換し、宛先に書き込む DLT パイプラインのエッジです。
G
生成AI
人工知能の一種で、コンピューターがモデルを使用して画像、テキスト、コード、合成データなどのコンテンツを作成する能力に焦点を当てています。 生成AI アプリケーションは、大規模言語モデル (LLMs) と基盤モデルのAI モデルの上に構築されます。 「Databricks の AI と機械学習」をご覧ください。
J
ジョブ
Databricksでの本番運用ワークロードのスケジュールと調整のための主要な単位です。Databricks ジョブは、1 つ以上のタスクで構成されます。 「 ワークフローのスケジュールと調整」を参照してください。
L
レイクハウスフェデレーション
Databricks のクエリ フェデレーション プラットフォーム。 クエリ フェデレーションという用語は、すべてのデータを統合システムに移行することなく、ユーザーとシステムが複数のデータソースに対してクエリを実行できるようにする機能のコレクションを表します。 Databricks は Unity Catalog を使用してクエリのフェデレーションを管理します。 「レイクハウスフェデレーションとは」を参照してください。
大規模言語モデル (LLM)
自由形式の質問への回答、チャット、コンテンツの要約、ほぼ任意の指示の実行、翻訳、コンテンツとコードの生成などのタスク用に設計された自然言語処理(NLP)モデル。 LLMは、高度な機械学習アルゴリズムを使用して大量のデータセットから学習され、人間の言語のパターンと構造を学習します。 「Databricks の大規模言語モデル (LLM)」を参照してください。
ライブラリ
クラスターで実行されているノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多くのライブラリが含まれており、独自のライブラリをアップロードすることもできます。 「ライブラリ」を参照してください。
M
メダリオンアーキテクチャ
レイクハウス内のデータを論理的に整理するために使用されるデータ設計パターンで、アーキテクチャの各レイヤー を通過するデータの構造と品質を段階的かつ段階的に向上させることを目的としています(ブロンズ テーブル⇒シルバー テーブル⇒ゴールドレイヤー テーブル) 。メダリオンレイクハウスアーキテクチャとは何ですか?
メタストア
データウェアハウス内のさまざまなテーブルとパーティションのすべての構造情報 (列と列の型情報、データの読み取りと書き込みに必要なシリアライザーとデシリアライザー、データが格納されている対応するファイルなど) を格納するコンポーネント。 「メタストア」を参照してください。
MLflow
エンドツーエンドの機械学習ライフサイクル (実験、再現性、デプロイなど) を管理するためのオープンソース プラットフォーム。 MLflow on Databricks は、エンタープライズ顧客向けの追加機能を備えたMLflowの完全マネージドサービスです。 「MLflow を使用した ML ライフサイクル管理」を参照してください。
モデルトレーニング
多くの一般的なオープンソースライブラリを使用して、Databricks で機械学習モデルとディープラーニングモデルをトレーニングするプロセス。 AI と ML モデルをトレーニングするを参照してください。
Mosaic AI
予測 ML モデルの構築から最新の GenAI アプリまで、AI および ML ソリューションを構築、デプロイ、評価、管理するための統合ツールを提供する機能。 「Databricks の AI と機械学習」をご覧ください。
N
ノートブック
データサイエンティストやエンジニアが、同じドキュメント内で複数の言語 (Python、Scala、SQLなど) でコードを記述して実行するために使用する対話型 Web インターフェイス。「Databricks ノートブックの概要」を参照してください。
O
OAuth
OAuthはアクセス委任のオープンスタンダードであり、インターネットユーザーがWebサイトまたはアプリケーションに他のWebサイト上の情報へのアクセスを許可する方法として一般的に使用されていますが、パスワードは提供されません。 「Databricks リソースへのアクセスを認証する」を参照してください。
P
Partner Connect
独立系ソフトウェアベンダーが保守する統合を提供し、ほとんどのエンタープライズデータシステムに接続するための Databricks プログラム。 「Databricks Partner Connect とは」を参照してください。
パーソナルアクセストークン(PAT)
パスワードの代わりにコンピューターシステムにアクセスするときにユーザーを認証するために使用される文字列。 「Databricks リソースへのアクセスを認証する」を参照してください。
Photon
SQL ワークロードと DataFrame API 呼び出しをより高速に実行し、ワークロードあたりの総コストを削減する、高パフォーマンスの Databricks ネイティブのベクトル化クエリ エンジンです。 Photon は Apache Spark APIsと互換性があるため、既存のコードで動作します。 Photonとはを参照してください。
パイプライン
テーブル、ビュー、具体化されたビュー、フロー、シンクの DAG で、システムによって決定された依存関係の順序で遅延更新されます。
S
スキーマ (Unity Catalog)
Unity Catalog のカタログの子で、テーブル、ビュー、ボリューム、モデル、関数を含めることができます。 スキーマは、Unity Catalog の 3 レベルの名前空間 (catalog.schema.table-etc) の 2 番目のレベルです。 「Unity Catalog とは」を参照してください。
サーバーレスコンピュート
コンピュートは Databricksによって管理され、管理オーバーヘッドを削減し、ユーザーの生産性を向上させるためのインスタントコンピュートを提供します。 サーバレスコンピュートへの接続を参照してください。
サービスプリンシパル
自動化ツール、実行中のジョブ、およびアプリケーションで使用するために作成された ID。 Databricksユーザーと同じ方法で、アクセス許可を使用してリソースへのアクセスをサービスプリンシパルのアクセスを制限できます。Databricksユーザーとは異なり、サービスプリンシパルはAPIのみのIDです。Databricks UI や Databricks CLI に直接アクセスすることはできません。「サービスプリンシパルの管理」を参照してください。
シンク(パイプライン)
シンクは、外部システム (Kafka、Kinesis、Delta など) に書き込むフローの送信先です。
SQLウェアハウス
Databricksでデータをクエリおよび探索できるコンピュート リソース「SQLウェアハウスへの接続」を参照してください。
ストリーム処理
無限に増加し続けるデータセットに対するクエリを定義し、データを小さな増分バッチで処理できるデータ処理方法。 Databricks ストリーム処理では、構造化ストリーミングが使用されます。 ストリーミングと増分インジェストを参照してください。
ストリーミング
ストリーミングとは、インターネット経由でコンピューターやモバイルデバイスに配信され、リアルタイムで再生されるメディアコンテンツ(ライブまたは録画されたデータストリーム)を指します。 構造化ストリーミングの概念を参照してください。
ストリーミング分析
さまざまなソースによって継続的に生成されるデータを分析するプロセス。 Databricks は、構造化ストリーミングによるストリーミング分析をサポートしており、ライブデータのリアルタイム 知見の処理と分析を可能にします。
構造化ストリーミング
Spark SQL エンジン上に構築されたスケーラブルでフォールトトレラントなストリーム処理エンジンで、ストリーミング クエリとしての複雑な計算を可能にします。 構造化ストリーミングの概念を参照してください。
ストリーミングテーブル
ストリームが書き込んでいるマネージドテーブル。
T
テーブル
テーブルはスキーマに存在し、データの行を含みます。 Databricks で作成されたすべてのテーブルは、デフォルトで Delta Lake を使用します。 Delta Lake によってサポートされるテーブルは、Delta テーブルとも呼ばれます。 「テーブルとビューとは」を参照してください。
トリガーされたパイプライン
各テーブルの更新の開始時に使用可能だったすべてのデータを取り込むパイプラインで、依存関係の順序で実行され、その後終了します。 「トリガー パイプライン モードと継続的パイプライン モード」を参照してください。
U
Unity Catalog
Databricksワークスペース全体で一元的なアクセス制御、監査、リネージ、およびデータディスカバリー機能を提供するDatabricks機能。「Unity Catalog とは」を参照してください。
V
ビュー
SQL クエリによって定義される仮想テーブル。 それ自体はデータを格納しませんが、1 つ以上のテーブルからのデータを特定の形式または抽象化で表示する方法を提供します。 「ビューとは」を参照してください。
ボリューム (Unity Catalog)
非表形式データセットに対するガバナンスを可能にする Unity Catalog オブジェクト。 ボリュームは、クラウド・オブジェクト・ストレージ・ロケーション内のストレージの論理ボリュームを表します。 ボリュームは、ファイルへのアクセス、保存、管理、および整理の機能を提供します。 Unity Catalogボリュームとはを参照してください。
W
ワークフロー
Databricks でデータ処理タスクをスケジュールおよび調整できるツールのセット。 Databricks Workflows を使用して Databricks ジョブを設定します。「 ワークフローのスケジュールと調整」を参照してください。
ワークロード
タスクまたはタスクのグループを実行するために必要な処理能力の量。 Databricks では、データエンジニアリング (ジョブ) とデータ分析 (all-purpose) の 2 種類のワークロードを識別します。 「Databricks の概念」を参照してください。
ワークスペース
Databricks ユーザーがノートブック、エクスペリメント、クエリ、ダッシュボードなどのオブジェクトを開発、参照、共有できる組織環境。「ワークスペースの移動」を参照してください。