データレイクハウス の信頼性

信頼性 の柱のアーキテクチャ原則は、障害から回復し、機能を継続するシステムの能力に対処します。

Databricks の信頼性レイクハウス アーキテクチャ図。

信頼性 の原則

  1. 失敗に備えた設計

    高度に分散された環境では、停止が発生する可能性があります。 プラットフォームとさまざまなワークロード (ストリーミング ジョブ、バッチジョブ、モデル トレーニング、BI クエリーなど) の両方について、障害を予測し、信頼性を高めるために回復力のあるソリューションを開発する必要があります。 焦点は、迅速に、最良の場合は自動的に回復するアプリケーションの設計にあります。

  2. データ品質の管理

    データ品質は、データから正確で意味のある知見を導き出すための基本です。 データ品質には、完全性、正確性、妥当性、一貫性など、多くの側面があります。 データがビジネスユーザーにとって信頼できる信頼できる情報として機能するように、最終的なデータセットの品質を向上させるために積極的に管理する必要があります。

  3. オートスケールの設計

    標準の ETL プロセス、ビジネス レポート、およびダッシュボードには、多くの場合、メモリとコンピュートの観点から予測可能なリソース要件があります。 ただし、新しいプロジェクト、季節的なタスク、またはモデル トレーニング (解約、予測、メンテナンス) などの高度なアプローチにより、リソース要件が急増します。 組織がこれらすべてのワークロードを処理するには、スケーラブルなストレージとコンピュートプラットフォームが必要です。 必要に応じて新しいリソースを追加するのは簡単でなければならず、実際の使用量のみが課金されます。 ピークが過ぎると、リソースを解放し、それに応じてコストを削減できます。 これは、多くの場合、水平スケーリング (ノード数) および垂直スケーリング (ノードのサイズ) と呼ばれます。

  4. テスト回復手順

    ほとんどのアプリケーションとシステムの企業全体の災害復旧戦略では、優先順位、機能、制限、およびコストを評価する必要があります。 信頼性の高いディザスタリカバリアプローチでは、ワークロードの障害を定期的にテストし、リカバリ手順を検証します。 自動化を使用して、さまざまな障害をシミュレートしたり、過去に障害を引き起こしたシナリオを再現したりできます。

  5. デプロイとワークロードの自動化

    レイクハウスのデプロイとワークロードを自動化することで、これらのプロセスを標準化し、人為的ミスを排除し、生産性を向上させ、再現性を高めることができます。 これには、構成ドリフトを回避するための「コードとしての構成」の使用、および必要なすべてのレイクハウスおよびクラウドサービスのプロビジョニングを自動化するための「コードとしてのインフラストラクチャ」の使用が含まれます。

  6. モニタリング、アラート、ロギングを設定する

    レイクハウスのワークロードは、通常、Databricks プラットフォーム サービスと外部クラウド サービス (たとえば、 DATA やターゲット) を統合します。 正常な実行は、実行チェーン内の各サービスが正しく機能している場合にのみ発生します。 そうでない場合、監視、アラート、およびログ記録は、問題を検出および追跡し、システムの動作を理解するために重要です。

次へ: 信頼性 に関するおすすめの方法

信頼性に関するベスト プラクティスを参照してください。