Databricks におけるデータ準備の概要

この記事では、Databricks がアナリティクスと機械学習のデータ準備にどのように役立つかについて説明します。 データ準備は通常、アナリティクスと機械学習プロジェクトの最も時間のかかるコンポーネントであり、正確で有用な結果を保証するには、適切なデータが重要です。

データ準備タスク

データ準備には、次のタスクが含まれます。

  • データのクリーニングとフォーマット。 これには、欠損値や外れ値の処理、データが正しい形式であることの確認、不要な列の削除などのタスクが含まれます。

  • データの前処理。 これには、数値変換、データの集約、テキストまたは画像データのエンコード、新しいフィーチャの作成などのタスクが含まれます。

  • データの結合。 これには、テーブルの結合やデータセットのマージなどのタスクが含まれます。

データ準備のリソースと情報

Databricks プラットフォームは、データ取り込み、準備、アナリティクスと機械学習、モニタリングのための統合プラットフォームを提供します。

  • メダリオンレイクハウスアーキテクチャ は、品質が向上するデータレイヤーのセットを指定することにより、データ準備をガイドします。このアーキテクチャでは、データが検証と変換の複数のレイヤーを通過してから、効率的な Analytics 用に最適化されたレイアウトに格納されるため、ACID 保証が維持されます。

  • Delta Live Tables は、信頼性が高く、保守しやすく、テスト可能なデータ処理パイプラインを構築するためのフレームワークです。 データに対して実行する変換を定義すると、Delta Live Tables によってタスク オーケストレーション、クラスター管理、モニタリング、データ品質、およびエラー処理が管理されます。

  • Databricks Partner Connect を使用すると、Databricksワークスペースをサードパーティのデータ準備および変換パートナーに直接接続できます。Partner Connect ユーザーに代わって必要な Databricks リソースをプロビジョニングし、リソースの詳細をパートナーに渡します。

  • Databricks Runtime および Databricks Runtime 機械学習は、最も広く使用されているデータ準備ライブラリの多くがすでにインストールされている事前構築済み環境を提供します。 すべての組み込みライブラリのリストは、 リリースノートにあります。

  • 機械学習の特徴エンジニアリングは、生データを機械学習モデルの開発に使用できる特徴に変換するプロセスです。 機械学習アプリケーションの場合、 Databricks Feature Store は、チームが機能を検出して再利用し、機能系列を追跡し、リアルタイム サービスと自動検索のために機能をオンライン ストアに発行するのに役立ちます。