データレイクハウス のパフォーマンス効率

この記事では、 パフォーマンス効率 の柱のアーキテクチャ原則について説明し、負荷の変化に適応するシステムの能力について説明します。

Databricks のパフォーマンス効率レイクハウス アーキテクチャ図。

パフォーマンス効率 の原則

  1. サーバレス サービスを使用する

    サーバレス services では、顧客によるコンピューティング インフラストラクチャの運用と保守は必要ありません。 クラウド上で. これにより、クラウドインフラストラクチャの管理の運用オーバーヘッドが排除され、マネージドサービスがクラウド規模で動作するため、トランザクションコストが削減されます。 また、即時の可用性とすぐに使用できるセキュリティを提供し、最小限の構成または管理で済みます。

  2. パフォーマンスのためのワークロードの設計

    データエンジニアリング パイプラインなどの繰り返しのワークロードの場合、パフォーマンスを後回しにしないでください。データは次の条件を満たしている必要があります。

    • オブジェクトメモリから効率的に読み取ります。

    • 効率的に変換されます。

    • 消費のために効率的に公開されます。

    さらに、ほとんどのパイプラインまたは消費パターンは、システムのチェーンを使用します。 可能な限り最高のパフォーマンスを実現するには、チェーン全体を考慮し、最高のパフォーマンスを得るために選択する必要があります。

  3. 開発範囲でパフォーマンステストを実行する

    すべての開発ワークロードは、継続的なパフォーマンス テストを受ける必要があります。 テストでは、コード ベースを変更してもワークロードのパフォーマンスに悪影響がないことを確認します。 テストを実行するための定期的なスケジュールを確立します。 スケジュールされたイベントの一部として、または継続的インテグレーションビルドパイプラインの一部としてテストを実行します。

    パフォーマンス ベースラインを確立し、ワークロードとサポート インフラストラクチャの現在の効率を判断します。 ベースラインに対するパフォーマンスを測定することで、改善のための戦略を提供し、アプリケーションがビジネス目標を満たしているかどうかを判断できます。

    パフォーマンスに影響を与える可能性のあるボトルネックを特定します。 これらのボトルネックは、コード エラーまたはサービスの構成ミスによって発生する可能性があります。 通常、ボトルネックは負荷が増加するにつれて悪化します。

  4. パフォーマンスの監視

    リソースとサービスへのアクセスを維持し、パフォーマンスがユーザーの期待またはワークロード要件を満たしていることを確認します。 モニタリングは、ボトルネックやリソース不足の特定、構成の最適化、パイプライン/ワークロードのエラーの検出に役立ちます。

次へ: パフォーマンス効率 に関するおすすめの方法

パフォーマンス 効率のベスト プラクティスを参照してください。