Configurar compute para o trabalho

Este artigo contém recomendações e recursos para configurar o site compute para Databricks Jobs.

Cada trabalho pode ter uma ou mais tarefas. O senhor define compute recurso para cada tarefa. Várias tarefas definidas para o mesmo trabalho podem usar o mesmo recurso compute.

Imagem mostrando um trabalho com várias tomadas e o recurso cloud compute associado

Como faço para configurar a computação para Jobs?

O Jobs compute é configurado diretamente na UI do Databricks Jobs. Essas configurações fazem parte da definição do trabalho. Todos os outros tipos de compute disponíveis armazenam suas configurações com outros workspace ativos, conforme descrito na tabela a seguir:

Tipo de Compute

Detalhes

Empregos compute

O senhor configura o compute for Job usando a mesma interface do usuário e as mesmas configurações disponíveis para o compute para todos os fins. Consulte Referência de configuração do Compute.

SQL warehouses

serverless e pro SQL warehouse são configurados por administradores do workspace ou usuários com privilégios irrestritos de criação do cluster. O senhor configura a tarefa para execução no site SQL warehouse existente. Consulte Conectar-se a um site SQL warehouse.

Delta Live Tables pipeline compute

O senhor define as configurações do compute para o pipeline Delta Live Tables durante a configuração do pipeline. Consulte Configurar as definições do site compute .

Compute para todos os fins

Opcionalmente, o senhor pode configurar a tarefa em relação ao clássico compute. Databricks não recomenda essa configuração para trabalhos de produção. Consulte a referência de configuração de computação e O site compute para todos os fins deve ser usado para trabalhos?

Compartilhe compute em toda a tarefa

Configure a tarefa para usar o mesmo recurso do Job compute para otimizar o uso do recurso com o Job que orquestra várias tarefas. O compartilhamento compute entre as tarefas pode reduzir a latência associada aos tempos start-up.

O senhor pode usar um único recurso de Job compute para executar todas as tarefas que fazem parte do Job ou vários recursos de Job otimizados para cargas de trabalho específicas. Qualquer tarefa compute configurada como parte de uma tarefa está disponível para todas as outras tarefas da tarefa.

A tabela a seguir destaca as diferenças entre o Job compute configurado para uma única tarefa e o Job compute compartilhado entre tarefas:

Tarefa única

Compartilhado em toda a tarefa

Iniciar

Quando a execução da tarefa começa.

Quando a primeira execução de tarefa configurada para usar o recurso compute começar.

Encerrar

Após a execução da tarefa.

Após a tarefa final configurada para usar o recurso compute execução.

parado compute

Não aplicável.

O cálculo permanece ligado e parado enquanto a tarefa não usa o recurso de execução compute.

Um trabalho compartilhado cluster tem o escopo de uma única execução de trabalho e não pode ser usado por outro trabalho ou execução do mesmo trabalho.

biblioteca não pode ser declarado em uma configuração compartilhada do Job cluster. O senhor deve adicionar a biblioteca dependente nas configurações da tarefa.

Revisar, configurar e swap Job compute

A seção de computação no painel de detalhes doJob lista todos os compute configurados para tarefa no trabalho atual.

A tarefa configurada para usar um recurso compute é destacada no gráfico da tarefa quando o senhor passa o mouse sobre a especificação compute.

Use o botão de troca para alterar o endereço compute para todas as tarefas associadas a um recurso compute.

O trabalho clássico compute recurso tem uma opção Configure (Configurar ). Outros compute recursos oferecem ao senhor opções para view e modificar compute detalhes de configuração.

Recomendações para a configuração do Job clássico compute

Esta seção concentra-se em recomendações gerais sobre recursos e configurações que podem beneficiar alguns fluxos de trabalho. As recomendações específicas para configurar o tamanho e os tipos de compute recurso variam de acordo com a carga de trabalho.

Databricks O senhor recomenda habilitar o Photon Acceleration, usar versões recentes do Databricks Runtime e usar o compute configurado para Unity Catalog.

Observação

transmissão estructurada fluxo de trabalho têm recomendações específicas. Consulte Considerações sobre produção para transmissão estruturada.

Use o modo de acesso compartilhado

Databricks recomenda o uso do modo de acesso compartilhado para o Job. Consulte Modos de acesso.

Observação

O modo de acesso compartilhado não é compatível com algumas cargas de trabalho e recursos. A Databricks recomenda o modo de acesso de usuário único para essas cargas de trabalho. Consulte Limitações do modo de acesso à computação para o Unity Catalog.

Use a política de cluster

Databricks recomenda que os administradores do workspace definam políticas de cluster para o Job e apliquem essas políticas a todos os usuários que configuram o Job.

política de cluster permitem que os administradores do workspace definam controles de custo e limitem as opções de configuração dos usuários. Para obter detalhes sobre a configuração da política de cluster, consulte Criar e gerenciar políticas de compute .

Databricks fornece uma política default configurada para o Job. Os administradores podem tornar essa política disponível para outros usuários do site workspace. Consulte Job compute.

Usar a escala automática

Configure o autoscale para que a tarefa de longa duração possa adicionar e remover dinamicamente os nós do worker durante a execução do trabalho. Consulte Ativar escala automática.

Use o site pool para reduzir o tempo de cluster começar

permitem que o senhor reserve compute recurso do seu provedor cloud. O pool é benéfico para reduzir o tempo do novo trabalho cluster começar e garantir a disponibilidade do recurso compute. Consulte a referência de configuração do pool.

Use instâncias preemptivas

Configure instâncias preemptivas para cargas de trabalho com requisitos de latência flexíveis para otimizar os custos. Consulte Instâncias preemptivas.

Configurar zonas de disponibilidade

Especifique uma zona de disponibilidade (AZ) se sua organização tiver comprado instâncias reservadas. Consulte as zonas de disponibilidade.

O site compute deve ser usado para todos os fins no trabalho?

Há vários motivos pelos quais o site Databricks recomenda não usar o site compute para todos os fins no trabalho, incluindo os seguintes:

  • Databricks O senhor paga pelo site compute em uma taxa diferente do Job compute.

  • Jobs compute é encerrado automaticamente após a conclusão da execução de um trabalho. O site compute para todos os fins oferece suporte ao encerramento automático, que está vinculado à inatividade e não ao fim da execução de um trabalho.

  • O site compute para todos os fins é frequentemente compartilhado entre equipes de usuários. Os trabalhos agendados em compute para todos os fins geralmente têm latência aumentada devido à concorrência pelo recurso compute.

  • Muitas recomendações para otimizar a configuração do Job compute não são apropriadas para o tipo de consultas ad-hoc e cargas de trabalho interativas executadas em compute.

Veja a seguir os casos de uso em que o senhor pode optar por usar o site compute para todos os fins:

  • O senhor está desenvolvendo ou testando iterativamente um novo trabalho. Os tempos de inicialização do Job compute podem tornar o desenvolvimento iterativo tedioso. O site compute permite que o senhor aplique alterações e execute seu trabalho rapidamente.

  • O senhor tem um trabalho de curta duração que deve ser executado com frequência ou em uma programação específica. Não há tempo de start-up associado ao site de uso geral em execução no momento compute. Considere os custos associados ao tempo de parada se estiver usando esse padrão.