Folha de dicas de criação de computação

Este artigo tem como objetivo fornecer orientação clara e opinativa para a criação compute . Ao usar os tipos compute corretos para seu fluxo de trabalho, você pode melhorar o desempenho e economizar custos.

Melhor prática

Impacto

Documentos

Se você é novo no Databricks, comece usando tipos de instância gerais para todos os fins

Selecionar o tipo de instância apropriado para a carga de trabalho resulta em maior eficiência.

Use o modo de acesso compartilhado, a menos que a funcionalidade necessária não seja compatível

compute com modo de acesso compartilhado pode ser usada por vários usuários com isolamento de dados entre usuários.

Use os tipos de instância de última geração se houver disponibilidade suficiente

A última geração de tipos de instância oferece o melhor desempenho e os recursos mais recentes.

Defina o equilíbrio sob demanda e de instâncias spot com base na rapidez com que você precisa que sua carga de trabalho seja executada

As instâncias spot economizam custos, mas podem afetar o tempo geral de execução de uma operação se as instâncias spot forem recuperadas.

Escolha o tamanho dos seus nós e o número de worker com base nos tipos de operações que sua carga de trabalho executa

Por exemplo, se você espera muitos embaralhamentos, pode ser mais eficiente usar um único nó grande em vez de vários nós menores.

vácuo de execução em clusters com escalonamento automático definido para 1-4 worker, onde cada worker tem 8 núcleos.

Selecione um driver com entre 8 e 32 núcleos. Aumente o tamanho do driver se ocorrer erros de falta de memória (OOM).

As declarações de vácuo acontecem em duas fases, a segunda das quais envolve muitos drivers. Se você não usar clusters do tamanho certo, as operações poderão causar lentidão e não ser bem-sucedidas.

Avalie se o seu fluxo de trabalho de lotes se beneficiaria com o Photon

Photon fornece query mais rápidas e reduz o custo total por carga de trabalho.