Init scripts com escopo de cluster

init scriptcom escopo definido clusters são init script definidos em uma configuração clusters . init script com escopo de cluster aplica-se a ambos os clusters que você cria e aqueles criados para executar Job.

É possível configurar com clusters init script escopo usando a UI, a CLI e invocando a clusters API . Esta seção se concentra na execução dessas tarefas usando a UI. Para os outros métodos, consulte a CLI do Databricks e a API Clusters.

Você pode adicionar qualquer número de scripts e os scripts são executados sequencialmente na ordem fornecida.

Se um clusterscom escopo init script retornar um código de saída diferente de zero, a clusters inicialização dos falhará. Você pode solucionar clustersproblemas init script com escopo configurando a clusters logs entrega e examinando os init script logs. Consulte registroinit script .

Configure um init scriptcom escopo clusters usando a interface do usuário

Esta seção contém instruções para configurar um cluster para executar um init script usando a UI do Databricks.

Databricks recomenda gerenciar todos os scripts de inicialização como scripts de inicialização com escopo de cluster. Se estiver usando o site compute com modo de acesso padrão ou dedicado (anteriormente compartilhado e modos de acesso de usuário único), armazene o script de inicialização nos volumes Unity Catalog. Se estiver usando compute com o modo de acesso compartilhado sem isolamento, use os arquivos workspace para o script de inicialização.

Para o modo de acesso padrão, o senhor deve adicionar o script init ao allowlist. Consulte Allowlist biblioteca e script de inicialização em compute com o modo de acesso padrão (anteriormente, modo de acesso compartilhado).

Para usar a interface do usuário para configurar clusters para executar um init script, conclua as passos a seguir:

  1. Na página de configuração de clustering, clique no botão de alternância Advanced.

  2. Na parte rodapé da página, clique na tab init script .

  3. Na lista suspensa Fonte , selecione o tipo de fonte workspace, Volume ou GS .

  4. Especifique um caminho para o init script, como um dos exemplos a seguir:

    • Para um init script armazenado em seus arquivos workspace: /Workspace/<path-to-script>/<script-name>.sh

    • Para um init script armazenado com volumes Unity Catalog: /Volumes/<catalog>/<schema>/<volume>/<path-to-script>/<script-name>.sh

    • Para um init script armazenado com armazenamento de objetos: gs://bucket-name/path/to/init-script

  5. Clique em Adicionar.

No modo de acesso dedicado, é usada a identidade do principal atribuído (um usuário ou entidade de serviço).

No modo de acesso compartilhado sem isolamento, a identidade do proprietário clusters é usada.

Para remover um script da configuração clusters , clique no ícone da lixeira à direita do script. Ao confirmar a exclusão, você será solicitado a reiniciar os clusters. Opcionalmente, você pode excluir o arquivo de script do local para o qual o upload .

Observação

Se você configurar um init script usando o tipo de origem GS , deverá configurar credenciais de acesso.

A Databricks recomenda usar de clouds serviço do Google account para gerenciar o acesso ao init script armazenado no GCS. Crie uma de clouds serviço do Google account com a função de visualizador de objetos de armazenamento para o bucket desejado e anexe-a a clusters. Consulte Acessar buckets do GCS usando contas de serviço clouds do Google em clusters.

Aviso

clusterscom escopo de init script no DBFS está em fim de vida. A opção DBFS na UI existe em alguns workspace para suportar cargas de trabalho legadas e não é recomendada. Todos os init script armazenados no DBFS devem ser migrados. Para obter instruções de migração, consulte Migrar init script do DBFS.

Solucionando problemas clusterscom escopo init script

  • O script deve existir no local configurado. Se o script não existir, as tentativas de iniciar os clusters ou escalar os executores resultam em falha.

  • O init script não pode ser maior que 64 KB. Se um script exceder esse tamanho, os clusters falharão ao iniciar e uma mensagem de falha aparecerá nos logs clusters.