Bibliotecas de cluster
August 28, 2024
A biblioteca de clusters pode ser usada por todos os notebooks e trabalhos em execução em um cluster. Este artigo detalha o uso da UI de instalação da biblioteca no Databricks workspace.
É possível instalar bibliotecas em um cluster seguindo as abordagens a seguir:
Instale uma biblioteca para uso somente com um cluster específico.
Instale uma biblioteca com a API REST. Veja a API da biblioteca.
Instale uma biblioteca com Databricks CLI. Consulte O que é a CLI do Databricks?.
Instale uma biblioteca usando o Terraform. Consulte o provedor Databricks Terraform e databricks_library.
Instale uma biblioteca usando um init script que execute no momento da criação clusters . Consulte Instalar uma biblioteca com um init script.
Instalar uma biblioteca em um cluster
Para instalar uma biblioteca em um cluster:
Clique em Calcular na barra lateral.
Clique em um nome de cluster.
Clique na guia Bibliotecas.
Clique em Instalar novo.
A caixa de diálogo Instalar biblioteca é exibida.
Selecione uma das opções de Library Source, conclua as instruções que aparecem e clique em Instalar.
Importante
A biblioteca pode ser instalada a partir de DBFS ao usar Databricks Runtime 14.3 LTS e abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no site DBFS. Para aumentar a segurança da biblioteca em um Databricks workspace, o armazenamento de arquivos da biblioteca no DBFS root está obsoleto e desativado pelo default em Databricks Runtime 15.1 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.
Em vez disso, o site Databricks recomenda fazer o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usar biblioteca pacote repositórios. Se a sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos cloud.
Nem todos os modos de acesso aos clusters são compatíveis com todas as configurações de biblioteca. Consulte biblioteca com escopo de clusters.
Origem da biblioteca |
Instruções |
---|---|
Workspace |
Selecione um arquivo workspace ou upload um arquivo Whl, zipped wheelhouse, JAR, ZIP, tar ou requirements.txt. Consulte Instalar biblioteca a partir de arquivos do espaço de trabalho |
Volumes |
Selecione um arquivo Whl, JAR ou requirements.txt de um volume. Ver Instalar biblioteca a partir de um volume. |
Caminho do arquivo/GCS |
Selecione o tipo de biblioteca e forneça o URI completo do objeto da biblioteca (por exemplo: |
PyPI |
Insira um nome de pacote PyPI. Veja o pacote PyPI. |
Maven |
Especifique uma coordenada Maven. Consulte o pacote Maven ou Spark. |
CRAN |
Insira o nome de um pacote. Veja o pacote CRAN. |
DBFS (não recomendado) |
Carregue um arquivo JAR ou Whl no site DBFS root. Isso não é recomendado, pois os arquivos armazenados no DBFS podem ser modificados por qualquer usuário do site workspace. |
Quando o senhor instala uma biblioteca em um cluster, um Notebook já anexado a esse cluster não verá imediatamente a nova biblioteca. O senhor deve primeiro desconectar e depois reconectar o Notebook ao site cluster.
Observação
Uma biblioteca que tenha levado mais de 2 horas para ser instalada será marcada como falha.
Instale uma biblioteca com um init script
Se a biblioteca exigir configuração personalizada, talvez não seja possível instalá-la usando o workspace ou a interface da biblioteca do cluster. Em vez disso, você pode instalar a biblioteca usando um init script.
Aqui está um exemplo de um init script que usa pip para instalar a biblioteca Python em clusters do Databricks Runtime na inicialização clusters .
#!/bin/bash
/databricks/python/bin/pip install astropy
Desinstalar uma biblioteca de um cluster
Observação
Ao desinstalar uma biblioteca de um cluster, a biblioteca é removida apenas quando você reinicia o cluster.Até que você reinicie o cluster, o status da biblioteca desinstalada aparece como Desinstalar reinicialização pendente.
Para desinstalar uma biblioteca, o senhor pode usar a UI do cluster:
Clique em Calcular na barra lateral.
Clique em um nome de cluster.
Clique na guia Bibliotecas.
Marque a caixa de seleção ao lado do cluster do qual deseja desinstalar a biblioteca, clique em Desinstalar e, em seguida, em Confirmar. O status muda para Desinstalação pendente de reinicialização.
Clique em Reiniciar e Confirmar para desinstalar a biblioteca. A biblioteca é removida da guia Bibliotecas do cluster.
Exibir as bibliotecas instaladas em um cluster
Clique em Calcular na barra lateral.
Clique no nome do cluster.
Clique na biblioteca tab. Para cada biblioteca, a tab exibe o nome e a versão, o tipo, o status da instalação e, se for upload, o arquivo de origem.
Atualizar uma biblioteca instalada em cluster
Para atualizar uma biblioteca instalada em cluster, desinstale a versão antiga da biblioteca e instale uma nova versão.
Observação
Os arquivos Requirements.txt não requerem desinstalação e reinicialização. Se o senhor modificou o conteúdo de um arquivo requirements.txt, pode simplesmente reinstalá-lo para atualizar o conteúdo do arquivo instalado.