データレイクハウスのパフォーマンス効率

この記事では、 パフォーマンス効率 の柱のアーキテクチャ原則について説明し、負荷の変化に適応するシステムの能力について説明します。

Databricks のパフォーマンス効率レイクハウス アーキテクチャ図。

パフォーマンス効率の原則

  1. サーバーレスアーキテクチャを使用する

    サーバーレス アーキテクチャでは、顧客がクラウド上でコンピューティング インフラストラクチャを運用および保守する必要がありません。 これにより、 マネージドサービス がクラウド規模で運用されるため、クラウド インフラストラクチャの管理にかかる運用オーバーヘッドがなくなり、トランザクション コストが削減されます。 また、すぐに使用でき、すぐに使用できるセキュリティを提供し、最小限の構成や管理で済みます。

  2. パフォーマンスのためのワークロードの設計

    データエンジニアリング パイプラインなどの繰り返しのワークロードの場合、パフォーマンスを後回しにしないでください。データは次の条件を満たしている必要があります。

    • オブジェクトメモリから効率的に読み取ります。

    • 効率的に変換されます。

    • 消費のために効率的に公開されます。

    さらに、ほとんどのパイプラインまたは消費パターンは、システムのチェーンを使用します。 可能な限り最高のパフォーマンスを実現するには、チェーン全体を考慮し、最高のパフォーマンスを得るために選択する必要があります。

  3. 開発範囲でパフォーマンステストを実行する

    すべての開発ワークロードは、継続的なパフォーマンス テストを受ける必要があります。 テストでは、コード ベースを変更してもワークロードのパフォーマンスに悪影響がないことを確認します。 テストを実行するための定期的なスケジュールを確立します。 スケジュールされたイベントの一部として、または継続的インテグレーションビルドパイプラインの一部としてテストを実行します。

    パフォーマンス ベースラインを確立し、ワークロードとサポート インフラストラクチャの現在の効率を判断します。 ベースラインに対するパフォーマンスを測定することで、改善のための戦略を提供し、アプリケーションがビジネス目標を満たしているかどうかを判断できます。

    パフォーマンスに影響を与える可能性のあるボトルネックを特定します。 これらのボトルネックは、コード エラーまたはサービスの構成ミスによって発生する可能性があります。 通常、ボトルネックは負荷が増加するにつれて悪化します。

  4. パフォーマンスの監視

    リソースとサービスへのアクセスを維持し、パフォーマンスがユーザーの期待またはワークロード要件を満たしていることを確認します。 モニタリングは、ボトルネックやリソース不足の特定、構成の最適化、パイプライン/ワークロードのエラーの検出に役立ちます。

次へ: パフォーマンス効率に関するおすすめの方法

パフォーマンス 効率のベスト プラクティスを参照してください。