チュートリアル: を使用してETL ワークフローを実装するDelta Live Tables
Delta Live Tablesインフラストラクチャ管理、タスク オーケストレーション、エラー処理とリカバリ、パフォーマンスの最適化などの運用の複雑さを機械的に自動化しながら、バッチまたはストリーミング データにETLと学習パイプラインを構築するためのシンプルな宣言的アプローチを提供します。 次のチュートリアルを使用して、Delta Live Tables の使用を開始し、一般的なデータ変換タスクを実行し、より高度なデータ処理ワークフローを実装できます。
Delta Live Tables を使用して最初のパイプラインを作成する
Delta Live Tablesフレームワークの機能とパイプラインの実装方法について学習できるように、このチュートリアルでは、最初のパイプラインの作成と実行について説明します。 このチュートリアルには、データの取り込み、データのクリーンアップと準備、準備されたデータの変換を実行するパイプラインのエンドツーエンドの例が含まれています。 「チュートリアル: 最初の Delta Live Tables パイプラインを実行する」を参照してください。
Python を使用してプログラムで複数のテーブルを作成する
注:
この記事で紹介したパターンは、SQL だけでは簡単には完了できません。 Python データセットは DataFrame を返す任意のクエリに対して定義できるため、必要に応じてspark.sql()
を使用して Python 関数内で SQL 構文を使用できます。
SQL クエリで Python ユーザー定義関数 (UDF) を使用できますが、SQL ソース ファイルで呼び出す前に、同じパイプライン内の Python ファイルでこれらの UDF を定義する必要があります。 「ユーザー定義スカラー関数 - Python」を参照してください。
多くのワークフローでは、同一であるか、わずかな差異しかない複数のデータ処理フローまたはデータセット定義の実装が必要です。 この冗長性により、エラーが発生しやすく、保守が困難なパイプラインが発生する可能性があります。 この冗長性に対処するには、Python でメタプログラミング パターンを使用できます。 このパターンを使用して、複数回呼び出された関数を呼び出して異なるテーブルを作成する方法を示す例については、「 プログラムによる複数のテーブルの作成」を参照してください。