Databricks でのストリーミング

Databricks を使用すると、ほぼリアルタイムのデータの取り込み、処理、機械学習、AI によるデータのストリーミングを行うことができます。

Databricks は、ストリーミング処理とインクリメンタル処理に対して、次のような多数の最適化を提供します。

Delta Live Tables は、増分処理のための宣言型構文を提供します。「Delta Live Tables とは」を参照してください。
Auto Loader は、クラウドオブジェクトストレージからの増分インジェストを簡素化します。「Auto Loaderとは」を参照してください。
Unity Catalog は、ストリーミングワークロードにデータガバナンスを追加します。「構造化ストリーミングでの Unity Catalog の使用」を参照してください。

Delta Lake は、これらの統合のためのストレージレイヤーを提供します。 Delta テーブルストリーミングの読み取りと書き込みを参照してください。

チュートリアル
Databricksの構造化ストリーミングを使用した、ほぼリアルタイムの増分処理の基本を説明します。
コンセプト
構造化ストリーミングを使用して増分ワークロードとほぼリアルタイムのワークロードを構成するための主要な概念について説明します。
ステートフルストリーミング
ステートフルな構造化ストリーミングクエリの中間状態情報を管理すると、予期しない待機時間や本番運用の問題を防ぐのに役立ちます。
本番運用に関する考慮事項
この記事には、リアルタイムアプリケーションまたはバッチアプリケーションのレイテンシとコストの要件を満たすために、 Databricks で構造化ストリーミングを使用して本番運用増分処理ワークロードを構成するための推奨事項が含まれています。
ストリームの監視
Databricks で構造化ストリーミングアプリケーションを監視する方法について説明します。
Unity Catalog の統合
Unity CatalogとDatabricksの構造化ストリーミングを連携させる方法をご紹介します。
Delta によるストリーミング
Delta Lake テーブルをストリーミングソースおよびシンクとして使用する方法について説明します。
例
Databricks の Cassandra、Azure Synapse Analytics、Python ノートブック、Scala ノートブックで Spark 構造化ストリーミングを使用する例を参照してください。

Databricks には、Avro、プロトコルバッファー、JSON データペイロードに含まれる半構造化データフィールドを操作するための特定の機能があります。詳細については、以下を参照してください。

追加のリソース

Apache Sparkの提供する「構造化ストリーミングプログラミングガイド」には、構造化ストリーミングに関する詳細情報が掲載されています。

構造化ストリーミングに関する参考情報については、Databricks では Apache Spark API による次のリファレンスを推奨します。