データレイクハウスのパフォーマンス効率
この記事では、 パフォーマンス効率 の柱のアーキテクチャ原則について説明し、負荷の変化に適応するシステムの能力について説明します。
パフォーマンス効率の原則
サーバーレスアーキテクチャを使用する
サーバーレス アーキテクチャでは、顧客がクラウド上でコンピューティング インフラストラクチャを運用および保守する必要がありません。 これにより、 マネージドサービス がクラウド規模で運用されるため、クラウド インフラストラクチャの管理にかかる運用オーバーヘッドがなくなり、トランザクション コストが削減されます。 また、すぐに使用でき、すぐに使用できるセキュリティを提供し、最小限の構成や管理で済みます。
パフォーマンスのためのワークロードの設計
データエンジニアリング パイプラインなどの繰り返しのワークロードの場合、パフォーマンスを後回しにしないでください。データは次の条件を満たしている必要があります。
オブジェクトメモリから効率的に読み取ります。
効率的に変換されます。
消費のために効率的に公開されます。
さらに、ほとんどのパイプラインまたは消費パターンは、システムのチェーンを使用します。 可能な限り最高のパフォーマンスを実現するには、チェーン全体を考慮し、最高のパフォーマンスを得るために選択する必要があります。
開発範囲でパフォーマンステストを実行する
すべての開発ワークロードは、継続的なパフォーマンス テストを受ける必要があります。 テストでは、コード ベースを変更してもワークロードのパフォーマンスに悪影響がないことを確認します。 テストを実行するための定期的なスケジュールを確立します。 スケジュールされたイベントの一部として、または継続的インテグレーションビルドパイプラインの一部としてテストを実行します。
パフォーマンス ベースラインを確立し、ワークロードとサポート インフラストラクチャの現在の効率を判断します。 ベースラインに対するパフォーマンスを測定することで、改善のための戦略を提供し、アプリケーションがビジネス目標を満たしているかどうかを判断できます。
パフォーマンスに影響を与える可能性のあるボトルネックを特定します。 これらのボトルネックは、コード エラーまたはサービスの構成ミスによって発生する可能性があります。 通常、ボトルネックは負荷が増加するにつれて悪化します。
パフォーマンスの監視
リソースとサービスへのアクセスを維持し、パフォーマンスがユーザーの期待またはワークロード要件を満たしていることを確認します。 モニタリングは、ボトルネックやリソース不足の特定、構成の最適化、パイプライン/ワークロードのエラーの検出に役立ちます。