Delta Live Tables パイプラインを開発する

パイプラインコードの開発とテストは、他の Apache Spark ワークロードとは異なります。この記事では、パイプラインコードの開発時にサポートされている機能、ベストプラクティス、および考慮事項の概要について説明します。その他の推奨事項とベストプラクティスについては、ソフトウェア開発と DevOps のベストプラクティスを Delta Live Table パイプラインに適用するを参照してください。

注：

パイプライン構成にソースコードを追加して、コードを検証したり、更新を実行したりする必要があります。 Delta Live Tables パイプラインの構成を参照してください。

パイプラインのソースコードにはどのファイルが有効ですか?

Delta Live Tables パイプラインコードには、Python または SQL を指定できます。 1 つのパイプラインをサポートする Python と SQL のソースコードファイルを組み合わせることができますが、各ファイルに含めることができる言語は 1 つだけです。 Python を使用したパイプラインコードの開発およびSQL を使用したパイプラインコードの開発を参照してください。

パイプラインのソースコードを指定するときに、ノートブックとワークスペースファイルを使用できます。ワークスペースファイルは、任意の IDE または Databricks ファイルエディターで作成された Python または SQL スクリプトを表します。ワークスペースファイルとはを参照してください。

Python コードをモジュールまたはライブラリとして開発する場合は、コードをインストールしてインポートし、ソースコードとして構成された Python ノートブックまたはワークスペースファイルからメソッドを呼び出す必要があります。 Delta Live Tables パイプラインの Python 依存関係の管理を参照してください。

注：

Python ノートブックで任意の SQL コマンドを使用する必要がある場合は、構文パターンパターン spark.sql("<QUERY>") を使用して SQL を Python コードとして実行できます。

関数を使用すると、Unity Catalog で使用する任意のユーザー定義関数を登録できます。PythonSQLUnity Catalog のユーザー定義関数 (UDF)を参照してください。

Delta Live Tables 開発機能の概要

Delta Live Tables は、多くの Databricks 機能を拡張して活用し、新しい機能と概念を導入します。次の表に、パイプラインコード開発をサポートする概念と機能の概要を示します。

機能	説明
開発モード	新しいパイプラインは、デフォルトで開発モードで実行されるように構成されています。 Databricks では、対話型の開発とテストに開発モードを使用することをお勧めします。開発モードと本番運用モードを参照してください。
検証	`Validate`更新では、テーブルで更新を実行せずに、パイプラインのソースコードの正確性を検証します。テーブルの更新を待たずにパイプラインでエラーを確認するを参照してください。
ノートブック	Delta Live Tables パイプラインのソースコードとして構成されたノートブックには、コードの検証と更新の実行のための対話型オプションが用意されています。ノートブックでの Delta Live Tables パイプラインの開発とデバッグを参照してください。
パラメータ	ソースコードとパイプライン構成のパラメーターを活用して、テストと拡張性を簡素化します。 Delta Live Tables パイプラインでのパラメーターの使用を参照してください。
Databricksアセットバンドル	Databricks アセットバンドルを使用すると、パイプライン構成とソースコードをワークスペース間で移動できます。 Delta Live Tables パイプラインを Databricks Asset Bundle プロジェクトに変換するを参照してください。

開発およびテスト用のサンプルデータセットを作成する

Databricks では、開発データセットとテストデータセットを作成して、予期されるデータと、形式が正しくない、または破損している可能性のあるレコードを使用してパイプラインロジックをテストすることをお勧めします。開発とテストに役立つデータセットを作成するには、次のような複数の方法があります。

本番運用データセットからデータのサブセットを選択します。
PII を含むソースには、匿名化されたデータまたは人工的に生成されたデータを使用します。
ダウンストリームの変換ロジックに基づいて明確に定義された結果を持つテストデータを作成します。
データスキーマのエクスペクテーションを破るレコードを作成することで、潜在的なデータ破損、不正な形式のレコード、およびアップストリームデータの変更を予測します。

たとえば、次のコードを使用してデータセットを定義するノートブックがあるとします。

CREATE OR REFRESH STREAMING TABLE input_data AS SELECT * FROM read_files("/production/data", "json")

特定のレコードを含むサンプルデータセットは、次のようなクエリを使用して作成できます。

CREATE OR REFRESH MATERIALIZED VIEW input_data AS
SELECT "2021/09/04" AS date, 22.4 as sensor_reading UNION ALL
SELECT "2021/09/05" AS date, 21.5 as sensor_reading

次の例は、パブリッシュされたデータをフィルタリングして、開発またはテスト用の本番運用データのサブセットを作成する方法を示しています。

CREATE OR REFRESH MATERIALIZED VIEW input_data AS SELECT * FROM prod.input_data WHERE date > current_date() - INTERVAL 1 DAY

これらの異なるデータセットを使用するには、変換ロジックを実装するノートブックを使用して複数のパイプラインを作成します。各パイプラインは input_data データセットからデータを読み取ることができますが、環境に固有のデータセットを作成するノートブックを含むように構成されています。

Delta Live Tables パイプラインを開発する

パイプラインのソースコードにはどのファイルが有効ですか?

Delta Live Tables 開発機能の概要

開発およびテスト用のサンプル データセットを作成する

開発およびテスト用のサンプルデータセットを作成する