Instalar as dependências do Notebook

Prévia

Esse recurso está em Pré-lançamento público.

O senhor pode instalar as dependências do Python para o serverless Notebook usando o painel lateral Environment. Esse painel oferece um único local para editar, view e exportar os requisitos de biblioteca do Notebook. Essas dependências podem ser adicionadas usando um ambiente básico ou individualmente.

painel de ambiente sem servidor com políticas orçamentárias

Para tarefas que não sejamNotebook, consulte Configurar ambientes e dependências para tarefas que não sejamNotebook .

Importante

Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência do seu notebook serverless. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, Reset seu ambiente.

Configurar um ambiente básico

Um ambiente básico é um arquivo YAML armazenado como um arquivo workspace ou em um volume Unity Catalog que especifica dependências de ambiente adicionais. Os ambientes básicos podem ser compartilhados entre o Notebook. Para configurar um ambiente básico:

  1. Crie um arquivo YAML que defina as configurações de um ambiente virtual Python. O exemplo YAML a seguir, que se baseia na especificação do ambiente de projetos do MLflow, define um ambiente básico com algumas dependências de biblioteca:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - my-library==6.1
      - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl"
      - git+https://github.com/databricks/databricks-cli
    
  2. Carregue o arquivo YAML como um arquivo workspace ou em um volume Unity Catalog. Consulte Importar um arquivo ou Fazer upload de arquivos para um volume do Unity Catalog.

  3. À direita do site Notebook, clique no botão ambiente para expandir o painel Environment. Esse botão só aparece quando um Notebook está conectado a serverless compute.

  4. No campo Base Environment (Ambiente básico ), digite o caminho do arquivo YAML de upload ou navegue até ele e selecione-o.

  5. Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.

Os usuários podem substituir as dependências especificadas no ambiente básico instalando as dependências individualmente.

Configurar o ambiente do Notebook

O senhor também pode instalar dependências em um Notebook conectado a serverless compute usando Dependencies tab do painel Environment:

  1. À direita do site Notebook, clique no botão ambiente para expandir o painel Environment (Ambiente ). Esse botão só aparece quando um Notebook está conectado a serverless compute.

  2. Selecione a versão do ambiente no menu suspenso Versão do ambiente. Consulte Versões do ambiente sem servidor. Databricks recomenda escolher a versão mais recente para obter o recurso mais atualizado do Notebook.

  3. Na seção Dependencies (Dependências ), clique em Add Dependency (Adicionar dependência ) e insira o caminho da dependência da biblioteca no campo. O senhor pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt.

  4. Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.

Observação

Um trabalho usando serverless compute instalará a especificação de ambiente do Notebook antes de executar o código do Notebook. Isso significa que não há necessidade de adicionar dependências ao programar o Notebook como Job. Consulte Configurar ambientes e dependências.

Exibir as dependências instaladas e os registros do pip

Para visualizar as dependências instaladas, clique em Instalado no painel lateral Ambientes de um notebook. Os logs de instalação do pip para o ambiente do notebook também estão disponíveis clicando em Logs do pip na parte inferior do painel.

Reset o meio ambiente

Se o seu Notebook estiver conectado ao serverless compute, o Databricks armazenará automaticamente em cache o conteúdo do ambiente virtual do Notebook. Isso significa que, em geral, o senhor não precisa reinstalar as dependências do Python especificadas no painel Environment ao abrir um Notebook existente, mesmo que ele tenha sido desconectado devido à inatividade.

Python O cache de ambiente virtual também se aplica ao Job. Isso significa que a execução subsequente do trabalho é mais rápida, pois as dependências necessárias já estão disponíveis.

Observação

Se o senhor alterar a implementação de um pacote Python personalizado usado em um trabalho no site serverless, também deverá atualizar o número da versão para que o trabalho possa pegar a implementação mais recente.

Para limpar o cache do ambiente e executar uma nova instalação das dependências especificadas no painel Environment (Ambiente ) de um Notebook anexado a serverless compute, clique na seta ao lado de Apply (Aplicar ) e, em seguida, clique em Reset environment (Ambiente).

Observação

Reset o ambiente virtual se o senhor instalar um pacote que interrompa ou altere o núcleo do ambiente Notebook ou Apache Spark. Desanexar o Notebook do serverless compute e reanexá-lo não necessariamente limpa todo o cache do ambiente.

Configurar ambientes e dependências para nãoNotebook tarefa

Para outros tipos de tarefas compatíveis, como Python script, Python wheel ou dbt tarefa, um ambiente default inclui a instalação da Python biblioteca. Para ver a lista de bibliotecas instaladas, consulte a seção Installed Python biblioteca da versão do cliente que está usando. Consulte Versões do ambiente sem servidor. Se uma tarefa exigir uma Python biblioteca que não esteja instalada, o senhor poderá instalar a biblioteca a partir de workspace arquivos, Unity Catalog volumes ou repositórios públicos de pacotes. Para adicionar uma biblioteca quando o senhor criar ou editar uma tarefa:

  1. No menu Environment and library (Ambiente e biblioteca ) dropdown, clique em ícone de edição ao lado do ambiente ou clique em + Add new environment (Adicionar novo ambiente). default ambiente ou clique em + Add new environment (Adicionar novo ambiente).

    Editar o ambiente default
  2. Selecione a versão do ambiente no menu suspenso Versão do ambiente. Consulte Versões do ambiente sem servidor. Databricks recomenda escolher a versão mais recente para obter o recurso mais atualizado.

  3. Na caixa de diálogo Configurar ambiente, clique em + Adicionar biblioteca.

  4. Selecione o tipo de dependência no menu dropdown em biblioteca.

  5. Na caixa de texto File Path (Caminho do arquivo ), digite o caminho para a biblioteca.

  • Para um Python wheel em um arquivo workspace, o caminho deve ser absoluto e começar com /Workspace/.

  • Para um Python wheel em um volume Unity Catalog, o caminho deve ser /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Para um arquivo requirements.txt, selecione PyPi e digite -r /path/to/requirements.txt.

    Adicionar tarefa biblioteca
  1. Clique em Confirm (Confirmar ) ou + Add library (Adicionar biblioteca ) para adicionar outra biblioteca.

  2. Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa).

Configure os repositórios default Python pacote

Prévia

Esse recurso está em Pré-lançamento público.

Os administradores podem configurar repositórios pacote privados ou autenticados no espaço de trabalho como a configuração default pip para serverless Notebook e serverless Job. Isso permite que os usuários instalem o pacote a partir de repositórios internos do Python sem definir explicitamente index-url ou extra-index-url. No entanto, se esses valores forem especificados no código ou em um Notebook, eles terão precedência sobre o padrão workspace.

Essa configuração aproveita os segredos do Databricks para armazenar e gerenciar com segurança os URLs e as credenciais do repositório. Os administradores podem configurar a instalação usando um escopo secreto predefinido e o comando Databricks CLI secrets ou o comando REST API.

Para configurar os repositórios de pacote default Python , crie um escopo de segredo predefinido e configure as permissões de acesso e, em seguida, adicione os segredos do repositório de pacote.

Nome do escopo secreto predefinido

Os administradores do espaço de trabalho podem definir URLs de índice de pip default ou URLs de índice extras juntamente com a autenticação tokens e segredos em um escopo secreto designado sob uma chave predefinida:

  • Nome do escopo secreto: databricks-package-management

  • chave secreta para index-url: pip-index-url

  • chave secreta para urnas extra-indexadas: pip-extra-index-urls

  • chave secreta para o conteúdo da certificação SSL: pip-cert

Criar o escopo secreto

Um escopo secreto pode ser criado usando o Databricks CLI comando secrets ou REST API o comando. Depois de criar o escopo secreto, configure as ACLs para conceder acesso de leitura a todos os usuários do site workspace. Isso garante que o repositório permaneça seguro e não possa ser alterado por usuários individuais.

databricks secrets create-scope databricks-package-management
databricks secrets put-acl databricks-package-management admins MANAGE
databricks secrets put-acl databricks-package-management users READ

Adicionar segredos do repositório Python pacote

Adicione os detalhes do repositório do pacote Python usando os nomes de chave secreta predefinidos.

# Add index URL.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-index-url", "string_value":"<index-url-value>"}'

# Add extra index URLs. If you have multiple extra index URLs, separate them using white space.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-extra-index-urls", "string_value":"<extra-index-url-1 extra-index-url-2>"}'

# Add cert content. If you want to pip configure a custom SSL certificate, put the cert file content here.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-cert", "string_value":"<cert-content>"}'

Modificar ou excluir segredos privados do repositório PyPI

Para modificar os segredos do repositório PyPI, use o comando put-secret. Para excluir os segredos do repositório PyPI, use delete-secret conforme mostrado abaixo:

# delete secret
databricks secrets delete-secret databricks-package-management pip-index-url

databricks secrets delete-secret databricks-package-management pip-extra-index-urls

databricks secrets delete-secret databricks-package-management pip-cert

# delete scope
databricks secrets delete-scope databricks-package-management

Observação

As modificações ou exclusões de segredos são aplicadas depois que um usuário anexa novamente serverless compute ao Notebook ou executa novamente o trabalho serverless.