Eficiência de desempenho para o data lakehouse

Este artigo aborda os princípios arquiteturais do pilar de eficiência de desempenho , referindo-se à capacidade de um sistema se adaptar às mudanças de carga.

Diagrama de arquitetura de lakehouse de eficiência de desempenho para Databricks.

Princípios de eficiência de desempenho

  1. Usar serviços serverless

    os serviços serverless não exigem que os clientes operem e mantenham a infraestrutura de computação na cloud. Isso elimina a sobrecarga operacional do gerenciamento da infraestrutura cloud e reduz os custos de transação porque o serviço gerenciado opera em escala cloud . Eles também fornecem disponibilidade imediata, segurança pronta para uso e requerem configuração ou administração mínimas.

  2. Projetar cargas de trabalho para desempenho

    Para cargas de trabalho repetidas, como pipelines data engineering , o desempenho nunca deve ser uma reflexão tardia. Os dados devem ser:

    • Leia com eficiência da memória do objeto.

    • Transformado com eficiência.

    • Publicado com eficiência para consumo.

    Além disso, a maioria dos pipelines ou padrões de consumo usa uma cadeia de sistemas. Para alcançar o melhor desempenho possível, toda a cadeia deve ser considerada e selecionada para o melhor desempenho.

  3. testes de desempenho de execução no escopo de desenvolvimento

    Cada carga de trabalho de desenvolvimento deve passar por testes de desempenho contínuos. Os testes garantem que qualquer alteração na base de código não afete negativamente o desempenho da carga de trabalho. Estabeleça um programa regular para a execução de testes. execução do teste como parte de um evento agendado ou como parte de um pipeline de construção de integração contínua.

    Estabeleça linhas de base de desempenho e determine a eficiência atual das cargas de trabalho e da infraestrutura de suporte. Medir o desempenho em relação às linhas de base pode fornecer estratégias para melhoria e determinar se o aplicativo atende aos objetivos de negócios.

    Identifique os gargalos que podem estar afetando o desempenho. Esses gargalos podem ser causados por erros de código ou configuração incorreta de um serviço. Normalmente, os gargalos pioram à medida que a carga aumenta.

  4. Monitore o desempenho

    Garanta que os recursos e serviços permaneçam acessíveis e que o desempenho atenda às expectativas do usuário ou aos requisitos de carga de trabalho. O monitoramento pode ajudá-lo a identificar gargalos ou recursos insuficientes, otimizar configurações e detectar erros de pipeline/carga de trabalho.

Próximo: Práticas recomendadas para eficiência de desempenho

Consulte Melhores práticas para eficiência de desempenho.