Otimize a utilização de cluster do pipeline Delta Live Tables com autoescala aprimorada

Este artigo discute como usar a escala automática aprimorada para otimizar seu pipeline Delta Live Tables em Databricks.

A autoescala aprimorada é ativada pelo site default para todos os novos pipelines.

O que é a escala automática aprimorada?

Databricks O autoscale aprimorado otimiza a utilização do cluster alocando automaticamente o recurso cluster com base no volume da carga de trabalho, com impacto mínimo na latência de processamento de dados do pipeline.

A autoescala aprimorada melhora a Databricks cluster funcionalidade da autoescala com o seguinte recurso:

  • A autoescala aprimorada implementa a otimização de cargas de trabalho de transmissão e adiciona aprimoramentos para melhorar o desempenho de cargas de trabalho de lotes. A autoescala aprimorada otimiza os custos adicionando ou removendo máquinas à medida que a carga de trabalho muda.

  • A autoescala aprimorada desliga proativamente os nós subutilizados, garantindo que não haja falhas na tarefa durante o desligamento. O site cluster existente autoscale recurso escala os nós para baixo somente se o nó estiver parado.

A autoescala aprimorada é o modo de autoescala do default quando o senhor cria um novo pipeline na UI do Delta Live Tables. O senhor pode ativar a escala automática aprimorada para o pipeline existente editando as configurações do pipeline na interface do usuário. O senhor também pode ativar a escala automática aprimorada ao criar ou editar o pipeline com o site Delta Live Tables API.

Quais métricas a escala automática aprimorada usa para tomar uma decisão de escala ascendente ou descendente?

A autoescala aprimorada usa duas métricas para decidir sobre o aumento ou a redução de escala:

  • utilização de slots de tarefa: É a proporção média entre o número de slots de tarefa ocupados e o total de slots de tarefa disponíveis no site cluster.

  • tamanho da fila de tarefas: Esse é o número de tarefas que aguardam execução nos slots de tarefa.

Habilite a escala automática aprimorada para Delta Live Tables pipeline

A autoescala aprimorada é o modo de autoescala do default quando o senhor cria um novo pipeline na UI do Delta Live Tables. O senhor pode ativar a escala automática aprimorada para o pipeline existente editando as configurações do pipeline na interface do usuário. O senhor também pode ativar a escala automática aprimorada ao criar ou editar um pipeline com o Delta Live Tables API.

Para usar a escala automática aprimorada, siga um destes procedimentos:

Use as seguintes diretrizes ao configurar a autoescala aprimorada para o pipeline de produção:

  • Deixe a configuração Min workers em default.

  • Defina a configuração Max workers como um valor baseado no orçamento e na prioridade do pipeline.

O exemplo a seguir configura uma autoescala aprimorada cluster com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers deve ser maior ou igual a min_workers.

Observação

  • A autoescala aprimorada está disponível apenas para updates clusters. A escala automática herdada é usada para maintenance clusters.

  • A configuração autoscale tem dois modos:

{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

Se o site pipeline estiver configurado para execução contínua, ele será reiniciado automaticamente após a alteração da configuração da autoescala. Após a reinicialização, espere um curto período de maior latência. Após esse breve período de aumento da latência, o tamanho do cluster deve ser atualizado com base em sua configuração autoscale, e a latência do pipeline deve retornar às características de latência anteriores.

Limitar os custos do pipeline que usa a autoescala aprimorada

A configuração do parâmetro Max worker no painel de computação do pipeline define um limite superior para a escala automática. A redução do número de trabalhadores disponíveis pode aumentar a latência de algumas cargas de trabalho, mas evita que os custos do recurso compute estourem durante as operações intensivas do compute.

Databricks recomenda ajustar as configurações do Max worker para equilibrar a relação custo-latência de acordo com suas necessidades específicas.

O painel de computação na interface do usuário do pipeline, onde o senhor pode definir o trabalhador máximo para a escala automática

Monitorar o pipeline clássico habilitado para autoescala aprimorada

O senhor pode usar o evento log in na interface de usuário Delta Live Tables para monitorar as métricas de autoescala aprimoradas para o pipeline clássico. Os eventos de autoescala aprimorados têm o tipo de evento autoscale. Veja a seguir exemplos de eventos:

Evento

Mensagem

pedidos de redimensionamento clusters começar

Scaling [up or down] to <y> executors from current cluster size of <x>

solicitação de redimensionamento clusters bem-sucedida

Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED

solicitação de redimensionamento clusters parcialmente bem-sucedida

Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED

falha na solicitação de redimensionamento clusters

Achieved cluster size <x> for cluster <cluster-id> with status FAILED

O senhor também pode view eventos de autoescala aprimorados consultando diretamente o evento log: