Use a computação do Databricks com seu Job
Quando você executa um Job do Databricks, as tarefas configuradas como parte da execução Job no Databricks são compute, seja um clusters ou um depósito SQL, dependendo do tipo de tarefa. A seleção do tipo compute e das opções de configuração é importante ao operacionalizar um Job. Este artigo fornece um guia para usar os recursos compute do Databricks para executar seu Job.
Observação
Os segredos não são redigidos nos registros do Spark driver de um cluster stdout
e stderr
transmissão. Para proteger dados confidenciais, em default, os logs de driver do Spark podem ser visualizados apenas por usuários com permissão de gerenciar CAN em Job, modo de acesso de usuário único e clusters de modo de acesso compartilhado. Para permitir que os usuários com permissão CAN ATTACH TO ou CAN RESTART acessem view os logs nesses clusters, defina a seguinte propriedade de configuração do Spark na configuração dos clusters: spark.databricks.acl.needAdminPermissionToViewLogs false
.
Em clusters de modo de acesso compartilhado sem isolamento, os logs do driver do Spark podem ser visualizados por usuários com permissão CAN ATTACH TO ou CAN gerenciar. Para limitar quem pode ler os logs apenas aos usuários com a permissão CAN gerenciar, defina spark.databricks.acl.needAdminPermissionToViewLogs
como true
.
Consulte Configuração do Spark para saber como adicionar propriedades do Spark a uma configuração clusters .
Escolha o tipo clusters correto para o seu Job
Os novos Job clusterssão dedicados clusters para uma Job ou tarefa de execução. Um Job cluster compartilhado é criado e começa quando a primeira tarefa usando o cluster começa e termina após a conclusão da última tarefa usando o cluster. O cluster não é encerrado quando parado, mas somente depois que todas as tarefas forem concluídas. Se uma Job cluster compartilhada falhar ou for encerrada antes que todas as tarefas tenham sido concluídas, uma nova cluster será criada. Um cluster com escopo de uma única tarefa é criado e começa quando a tarefa começa e termina quando a tarefa é concluída. Na produção, o site Databricks recomenda o uso de novos clusters compartilhados ou com escopo de tarefa para que cada Job ou tarefa seja executada em um ambiente totalmente isolado.
Quando você executa uma tarefa em novos clusters, a tarefa é tratada como uma carga de trabalho data engineering (tarefa), sujeita aos preços de carga de trabalho da tarefa. Quando você executa uma tarefa no todo-propósito de um clustersexistente, a tarefa é tratada como uma carga de trabalho analítica de dados (para todos os fins), sujeita a preços de carga de trabalho para todos os fins.
Se o senhor selecionar um cluster existente encerrado e o proprietário do Job tiver permissão CAN RESTART, o Databricks começará os clusters quando o Job estiver programado para execução.
Os clusters todo-propósito existentes funcionam melhor para tarefas como atualizar painéis em intervalos regulares.
Use uma piscina para reduzir clusters começar vezes
Para diminuir o Job clusters tempo de início de novos , crie um pool e configure os Job clusters do para usar o pool.