Bibliotecas de cluster

August 28, 2024

A biblioteca de clusters pode ser usada por todos os notebooks e trabalhos em execução em um cluster. Este artigo detalha o uso da UI de instalação da biblioteca no Databricks workspace.

É possível instalar bibliotecas em um cluster seguindo as abordagens a seguir:

Instalar uma biblioteca em um cluster

Para instalar uma biblioteca em um cluster:

  1. Clique em Ícone de computação Calcular na barra lateral.

  2. Clique em um nome de cluster.

  3. Clique na guia Bibliotecas.

  4. Clique em Instalar novo.

  5. A caixa de diálogo Instalar biblioteca é exibida.

  6. Selecione uma das opções de Library Source, conclua as instruções que aparecem e clique em Instalar.

Importante

A biblioteca pode ser instalada a partir de DBFS ao usar Databricks Runtime 14.3 LTS e abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no site DBFS. Para aumentar a segurança da biblioteca em um Databricks workspace, o armazenamento de arquivos da biblioteca no DBFS root está obsoleto e desativado pelo default em Databricks Runtime 15.1 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.

Em vez disso, o site Databricks recomenda fazer o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usar biblioteca pacote repositórios. Se a sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos cloud.

Nem todos os modos de acesso aos clusters são compatíveis com todas as configurações de biblioteca. Consulte biblioteca com escopo de clusters.

Origem da biblioteca

Instruções

Workspace

Selecione um arquivo workspace ou upload um arquivo Whl, zipped wheelhouse, JAR, ZIP, tar ou requirements.txt. Consulte Instalar biblioteca a partir de arquivos do espaço de trabalho

Volumes

Selecione um arquivo Whl, JAR ou requirements.txt de um volume. Ver Instalar biblioteca a partir de um volume.

Caminho do arquivo/GCS

Selecione o tipo de biblioteca e forneça o URI completo do objeto da biblioteca (por exemplo: /Workspace/path/to/library.whl, /Volumes/path/to/library.whl ou gs://bucket-name/path/to/library.whl). Consulte Instalar biblioteca a partir do armazenamento de objetos.

PyPI

Insira um nome de pacote PyPI. Veja o pacote PyPI.

Maven

Especifique uma coordenada Maven. Consulte o pacote Maven ou Spark.

CRAN

Insira o nome de um pacote. Veja o pacote CRAN.

DBFS (não recomendado)

Carregue um arquivo JAR ou Whl no site DBFS root. Isso não é recomendado, pois os arquivos armazenados no DBFS podem ser modificados por qualquer usuário do site workspace.

Quando o senhor instala uma biblioteca em um cluster, um Notebook já anexado a esse cluster não verá imediatamente a nova biblioteca. O senhor deve primeiro desconectar e depois reconectar o Notebook ao site cluster.

Observação

Uma biblioteca que tenha levado mais de 2 horas para ser instalada será marcada como falha.

Instale uma biblioteca com um init script

Se a biblioteca exigir configuração personalizada, talvez não seja possível instalá-la usando o workspace ou a interface da biblioteca do cluster. Em vez disso, você pode instalar a biblioteca usando um init script.

Aqui está um exemplo de um init script que usa pip para instalar a biblioteca Python em clusters do Databricks Runtime na inicialização clusters .

Bash
#!/bin/bash

/databricks/python/bin/pip install astropy

Desinstalar uma biblioteca de um cluster

Observação

Ao desinstalar uma biblioteca de um cluster, a biblioteca é removida apenas quando você reinicia o cluster.Até que você reinicie o cluster, o status da biblioteca desinstalada aparece como Desinstalar reinicialização pendente.

Para desinstalar uma biblioteca, o senhor pode usar a UI do cluster:

  1. Clique em Ícone de computação Calcular na barra lateral.

  2. Clique em um nome de cluster.

  3. Clique na guia Bibliotecas.

  4. Marque a caixa de seleção ao lado do cluster do qual deseja desinstalar a biblioteca, clique em Desinstalar e, em seguida, em Confirmar. O status muda para Desinstalação pendente de reinicialização.

Clique em Reiniciar e Confirmar para desinstalar a biblioteca. A biblioteca é removida da guia Bibliotecas do cluster.

Exibir as bibliotecas instaladas em um cluster

  1. Clique em Ícone de computação Calcular na barra lateral.

  2. Clique no nome do cluster.

  3. Clique na biblioteca tab. Para cada biblioteca, a tab exibe o nome e a versão, o tipo, o status da instalação e, se for upload, o arquivo de origem.

Atualizar uma biblioteca instalada em cluster

Para atualizar uma biblioteca instalada em cluster, desinstale a versão antiga da biblioteca e instale uma nova versão.

Observação

Os arquivos Requirements.txt não requerem desinstalação e reinicialização. Se o senhor modificou o conteúdo de um arquivo requirements.txt, pode simplesmente reinstalá-lo para atualizar o conteúdo do arquivo instalado.