Use a computação do Databricks com seu Job

Quando você executa um Job do Databricks, as tarefas configuradas como parte da execução Job no Databricks são compute, seja um clusters ou um depósito SQL, dependendo do tipo de tarefa. A seleção do tipo compute e das opções de configuração é importante ao operacionalizar um Job. Este artigo fornece um guia para usar os recursos compute do Databricks para executar seu Job.

Observação

Os segredos não são redigidos nos registros do Spark driver de um cluster stdout e stderr transmissão. Para proteger dados confidenciais, em default, os logs de driver do Spark podem ser visualizados apenas por usuários com permissão de gerenciar CAN em Job, modo de acesso de usuário único e clusters de modo de acesso compartilhado. Para permitir que os usuários com permissão CAN ATTACH TO ou CAN RESTART acessem view os logs nesses clusters, defina a seguinte propriedade de configuração do Spark na configuração dos clusters: spark.databricks.acl.needAdminPermissionToViewLogs false.

Em clusters de modo de acesso compartilhado sem isolamento, os logs do driver do Spark podem ser visualizados por usuários com permissão CAN ATTACH TO ou CAN gerenciar. Para limitar quem pode ler os logs apenas aos usuários com a permissão CAN gerenciar, defina spark.databricks.acl.needAdminPermissionToViewLogs como true.

Consulte Configuração do Spark para saber como adicionar propriedades do Spark a uma configuração clusters .

Use clusters Job compartilhados

Para otimizar o uso de recursos com Job que orquestram várias tarefas, use clusters Job compartilhados. Um clusters Job compartilhado permite que várias tarefas na mesma execução Job reutilizem os clusters. Você pode usar um único cluster Job para executar todas as tarefas que fazem parte do Job ou vários clusters Job otimizados para cargas de trabalho específicas. Para usar clusters Job compartilhados:

  1. Selecione Novos clustersde tarefas ao criar uma tarefa e concluir a configuraçãoclusters .

  2. Selecione os novos clusters ao adicionar uma tarefa ao Job ou crie novos clusters Job. Qualquer cluster que você configurar ao selecionar Novos Clusters de Job estará disponível para qualquer tarefa no Job.

Um Job cluster compartilhado tem o escopo de uma única Job execução e não pode ser usado por outro trabalho ou execução do mesmo Job.

As bibliotecas não podem ser declaradas em uma configuração clusters Job compartilhados. Você deve adicionar bibliotecas dependentes nas configurações da tarefa.

Escolha o tipo clusters correto para o seu Job

  • Os novos Job clusterssão dedicados clusters para uma Job ou tarefa de execução. Um Job cluster compartilhado é criado e começa quando a primeira tarefa usando o cluster começa e termina após a conclusão da última tarefa usando o cluster. O cluster não é encerrado quando parado, mas somente depois que todas as tarefas forem concluídas. Se uma Job cluster compartilhada falhar ou for encerrada antes que todas as tarefas tenham sido concluídas, uma nova cluster será criada. Um cluster com escopo de uma única tarefa é criado e começa quando a tarefa começa e termina quando a tarefa é concluída. Na produção, o site Databricks recomenda o uso de novos clusters compartilhados ou com escopo de tarefa para que cada Job ou tarefa seja executada em um ambiente totalmente isolado.

  • Quando você executa uma tarefa em novos clusters, a tarefa é tratada como uma carga de trabalho data engineering (tarefa), sujeita aos preços de carga de trabalho da tarefa. Quando você executa uma tarefa no todo-propósito de um clustersexistente, a tarefa é tratada como uma carga de trabalho analítica de dados (para todos os fins), sujeita a preços de carga de trabalho para todos os fins.

  • Se o senhor selecionar um cluster existente encerrado e o proprietário do Job tiver permissão CAN RESTART, o Databricks começará os clusters quando o Job estiver programado para execução.

  • Os clusters todo-propósito existentes funcionam melhor para tarefas como atualizar painéis em intervalos regulares.

Use uma piscina para reduzir clusters começar vezes

Para diminuir o Job clusters tempo de início de novos , crie um pool e configure os Job clusters do para usar o pool.