Databricksによるデータエンジニアリング

Databricks は、 data scientists、エンジニア、アナリスト間のコラボレーションのための堅牢な環境を含む、豊富なデータエンジニアリング機能のセットを提供します。その中心には、データを取り込み、変換するパイプラインがあります。最も効率的なパイプラインのエンジニアリングを容易にするために、 Databricks は構造化ストリーミングと Delta Live Tablesを提供しています。「Databricks でのストリーミング」および「Delta Live Tables とは」を参照してください。

構造化ストリーミングと Delta Live Tables によって提供されるデータのインクリメンタルストリーム処理がデータパイプラインに最適なオプションである理由の概要については、「インクリメンタルストリーム処理を行う理由」を参照してください。

その他のデータエンジニアリングリソース

Databricks には、多くの追加シナリオに対応するデータエンジニアリングタスクの機能があります。

Databricks ノートブックは、コラボレーションのための一般的なツールです。
Databricks ジョブを使用してワークフローをスケジュールし、調整します。
機械学習ソリューションを設計している場合は、 Databricks Mosaic AI を参照してください。

注：

主に SQL クエリと BI ツールを使用する場合は、「 Databricks SQL」を参照してください。

入門チュートリアルと入門情報については、「 Databricks の概要」と「 Databricks とは」を参照してください。

Delta Live Tables
Databricks Delta Live Tablesを使用して取り込みと変換のためのデータパイプラインを構築する方法を学びます。
構造化ストリーミング
Databricks の構造化ストリーミングを利用したストリーミング、インクリメンタル、リアルタイムのワークロードについて説明します。