Instalar bibliotecas do armazenamento de objetos

Este artigo orienta você pelas passos necessárias para instalar bibliotecas do armazenamento de objetos cloud no Databricks.

Observação

Este artigo refere-se ao armazenamento de objetos clouds como um conceito geral e pressupõe que você está interagindo diretamente com dados armazenados no armazenamento de objetos usando URIs. A Databricks recomenda o uso de volumes Unity Catalog para configurar o acesso a arquivos no armazenamento de objetos clouds . Consulte Criar e trabalhar com volumes.

O senhor pode armazenar JARs personalizados e Python Whl biblioteca no armazenamento de objetos em nuvens, em vez de armazená-los no site DBFS root. Consulte biblioteca com escopo de clusters para obter detalhes completos sobre a compatibilidade da biblioteca.

Importante

A biblioteca pode ser instalada a partir do DBFS ao usar o Databricks Runtime 14.3 LTS e o abaixo. No entanto, qualquer usuário do site workspace pode modificar os arquivos de biblioteca armazenados no DBFS. Para melhorar a segurança das bibliotecas em um Databricks workspace, o armazenamento de arquivos de biblioteca no DBFS root está obsoleto e desativado pelo default no Databricks Runtime 15.0 e acima. Consulte O armazenamento de biblioteca em DBFS root está obsoleto e desativado por default.

Em vez disso, o site Databricks recomenda fazer o upload de todas as bibliotecas, incluindo Python biblioteca, JAR arquivos e Spark conectores, para workspace arquivos ou Unity Catalog volumes, ou usar biblioteca pacote repositórios. Se a sua carga de trabalho não for compatível com esses padrões, o senhor também poderá usar a biblioteca armazenada no armazenamento de objetos cloud.

Carregar bibliotecas para armazenamento de objetos

Você pode carregar bibliotecas para o armazenamento de objetos da mesma forma que carrega outros arquivos. Você deve ter permissões adequadas em seu provedor cloud para criar novos contêineres de armazenamento de objetos ou carregar arquivos no armazenamento de objetos cloud .

Conceder permissões somente leitura para armazenamento de objetos

Databricks recomenda configurar todos os privilégios relacionados à instalação da biblioteca com permissões somente leitura.

O Databricks permite atribuir permissões de segurança a clusters individuais que controlam o acesso aos dados no armazenamento de objetos cloud . Essas políticas podem ser expandidas para adicionar acesso somente leitura ao armazenamento de objetos cloud que contém bibliotecas.

Observação

Em Databricks Runtime 12.2 LTS e abaixo, o senhor não pode carregar JAR biblioteca ao usar clusters com modos de acesso compartilhado. Em Databricks Runtime 13.3 LTS e acima, o senhor deve adicionar JAR biblioteca à lista de permissões Unity Catalog. Consulte a biblioteca Allowlist e o script de inicialização em computecompartilhado.

A Databricks recomenda usar de clouds serviço do Google account para gerenciar o acesso à biblioteca armazenada no GCS. Crie uma de clouds serviço do Google account com a função de visualizador de objetos de armazenamento para o bucket desejado e anexe-a a clusters. Consulte Acessar buckets do GCS usando contas de serviço clouds do Google em clusters.

Instalar bibliotecas em clusters

Para instalar uma biblioteca armazenada no armazenamento de objetos cloud em clusters, conclua as passos a seguir:

  1. Selecione um cluster na lista na IU de clusters.

  2. Selecione a tab biblioteca .

  3. Selecione a opção Caminho do arquivo/GCS .

  4. Forneça o caminho completo do URI para o objeto da biblioteca (por exemplo, gs://bucket-name/path/to/library.whl).

  5. Clique em Instalar.

Você também pode instalar a biblioteca usando a API REST ou CLI.

Instalar bibliotecas no Notebook

O senhor pode usar %pip para instalar arquivos Python wheel personalizados armazenados no armazenamento de objetos com escopo para um Notebook-isolado SparkSession. Para usar esse método, o senhor deve armazenar o biblioteca em um armazenamento de objeto legível publicamente ou usar um URL pré-assinado.

Consulte Biblioteca Python com escopoNotebook.

Observação

O JAR biblioteca não pode ser instalado no site Notebook. O senhor deve instalar o JAR biblioteca no nível do cluster.