Instalar as dependências do Notebook
Prévia
Esse recurso está em Pré-lançamento público.
O senhor pode instalar as dependências do Python para o serverless Notebook usando o painel lateral Environment. Esse painel oferece um único local para editar, view e exportar os requisitos de biblioteca do Notebook. Essas dependências podem ser adicionadas usando um ambiente básico ou individualmente.
Para tarefas que não sejamNotebook, consulte Configurar ambientes e dependências para tarefas que não sejamNotebook .
Importante
Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência do seu notebook serverless. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, remova a biblioteca e reinicie seu ambiente.
Configurar um ambiente básico
Um ambiente básico é um arquivo YAML armazenado como um arquivo workspace ou em um volume Unity Catalog que especifica dependências de ambiente adicionais. Os ambientes básicos podem ser compartilhados entre o Notebook. Para configurar um ambiente básico:
Crie um arquivo YAML que defina as configurações de um ambiente virtual Python. O exemplo YAML a seguir, que se baseia na especificação do ambiente de projetos do MLflow, define um ambiente básico com algumas dependências de biblioteca:
client: "1" dependencies: - --index-url https://pypi.org/simple - -r "/Workspace/Shared/requirements.txt" - my-library==6.1 - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl" - git+https://github.com/databricks/databricks-cli
Carregue o arquivo YAML como um arquivo workspace ou em um volume Unity Catalog. Consulte Importar um arquivo ou Fazer upload de arquivos para um volume do Unity Catalog.
À direita do site Notebook, clique no botão para expandir o painel Environment. Esse botão só aparece quando um Notebook está conectado a serverless compute.
No campo Base Environment (Ambiente básico ), digite o caminho do arquivo YAML de upload ou navegue até ele e selecione-o.
Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.
Os usuários podem substituir as dependências especificadas no ambiente básico instalando as dependências individualmente.
Configurar o ambiente do Notebook
Também é possível instalar dependências em um Notebook conectado a serverless compute usando a seção Dependencies (Dependências ) do painel Environment (Ambiente ):
À direita do site Notebook, clique no botão para expandir o painel Environment (Ambiente ). Esse botão só aparece quando um Notebook está conectado a serverless compute.
Selecione a versão do ambiente no menu suspenso Versão do ambiente. Consulte Versões do ambiente sem servidor. Databricks recomenda escolher a versão mais recente para obter o recurso mais atualizado do Notebook.
Na seção Dependencies (Dependências ), clique em Add Dependency (Adicionar dependência ) e insira o caminho da dependência da biblioteca no campo. O senhor pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt.
Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.
Observação
Um trabalho usando serverless compute instalará a especificação de ambiente do Notebook antes de executar o código do Notebook. Isso significa que não há necessidade de adicionar dependências ao programar o Notebook como Job. Consulte Configurar ambientes e dependências.
Exibir as dependências instaladas e os registros do pip
Para view as dependências instaladas, clique em Installed (Instalado ) no painel Environments (Ambientes ) de um Notebook. A instalação do pip logs para o ambiente do Notebook também está disponível clicando em pip logs na parte inferior do painel.
Reset o meio ambiente
Se o seu Notebook estiver conectado ao serverless compute, o Databricks armazenará automaticamente em cache o conteúdo do ambiente virtual do Notebook. Isso significa que, em geral, o senhor não precisa reinstalar as dependências do Python especificadas no painel Environment ao abrir um Notebook existente, mesmo que ele tenha sido desconectado devido à inatividade.
Python O cache de ambiente virtual também se aplica ao Job. Quando um trabalho é executado, qualquer tarefa do trabalho que compartilhe o mesmo conjunto de dependências de uma tarefa concluída nessa execução é mais rápida, pois as dependências necessárias já estão disponíveis.
Observação
Se o senhor alterar a implementação de um pacote Python personalizado usado em um trabalho no site serverless, também deverá atualizar o número da versão para que o trabalho possa pegar a implementação mais recente.
Para limpar o cache do ambiente e executar uma nova instalação das dependências especificadas no painel Environment (Ambiente ) de um Notebook anexado a serverless compute, clique na seta ao lado de Apply (Aplicar ) e, em seguida, clique em Reset environment (Ambiente).
Observação
Reset o ambiente virtual se o senhor instalar um pacote que interrompa ou altere o ambiente principal do Notebook ou do site Apache Spark. A remoção do Notebook do site serverless compute e sua recolocação não necessariamente limpa todo o cache do ambiente. A redefinição do ambiente reinstala todas as dependências especificadas no painel Ambiente, portanto, certifique-se de que o pacote ofensivo seja removido antes da redefinição.
Configurar ambientes e dependências para nãoNotebook tarefa
Para outros tipos de tarefas compatíveis, como Python script, Python wheel ou dbt tarefa, um ambiente default inclui a instalação da Python biblioteca. Para ver a lista de bibliotecas instaladas, consulte a seção Installed Python biblioteca da versão do cliente que está usando. Consulte Versões do ambiente sem servidor. Se uma tarefa exigir uma Python biblioteca que não esteja instalada, o senhor poderá instalar a biblioteca a partir de workspace arquivos, Unity Catalog volumes ou repositórios públicos de pacotes. Para adicionar uma biblioteca quando o senhor criar ou editar uma tarefa:
No menu Environment and library (Ambiente e biblioteca ) dropdown, clique em ao lado do ambiente ou clique em + Add new environment (Adicionar novo ambiente). default ambiente ou clique em + Add new environment (Adicionar novo ambiente).
Selecione a versão do ambiente no menu suspenso Versão do ambiente. Consulte Versões do ambiente sem servidor. Databricks recomenda escolher a versão mais recente para obter o recurso mais atualizado.
Na caixa de diálogo Configurar ambiente, clique em + Adicionar biblioteca.
Selecione o tipo de dependência no menu dropdown em biblioteca.
Na caixa de texto File Path (Caminho do arquivo ), digite o caminho para a biblioteca.
Para um Python wheel em um arquivo workspace, o caminho deve ser absoluto e começar com
/Workspace/
.Para um Python wheel em um volume Unity Catalog, o caminho deve ser
/Volumes/<catalog>/<schema>/<volume>/<path>.whl
.Para um arquivo
requirements.txt
, selecione PyPi e digite-r /path/to/requirements.txt
.
Clique em Confirm (Confirmar ) ou + Add library (Adicionar biblioteca ) para adicionar outra biblioteca.
Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa).
Configure os repositórios default Python pacote
Prévia
Esse recurso está em Pré-lançamento público.
Os administradores podem configurar repositórios pacote privados ou autenticados no espaço de trabalho como a configuração default pip para serverless Notebook e serverless Job. Isso permite que os usuários instalem o pacote a partir de repositórios internos do Python sem definir explicitamente index-url
ou extra-index-url
. No entanto, se esses valores forem especificados no código ou em um Notebook, eles terão precedência sobre o padrão workspace.
Essa configuração aproveita os segredos do Databricks para armazenar e gerenciar com segurança os URLs e as credenciais do repositório. Os administradores podem configurar a instalação usando um escopo secreto predefinido e o comando Databricks CLI secrets ou o comando REST API.
Para configurar os repositórios de pacote default Python , crie um escopo de segredo predefinido e configure as permissões de acesso e, em seguida, adicione os segredos do repositório de pacote.
Nome do escopo secreto predefinido
Os administradores do espaço de trabalho podem definir URLs de índice de pip default ou URLs de índice extras juntamente com a autenticação tokens e segredos em um escopo secreto designado sob uma chave predefinida:
Nome do escopo secreto:
databricks-package-management
chave secreta para index-url:
pip-index-url
chave secreta para urnas extra-indexadas:
pip-extra-index-urls
chave secreta para o conteúdo da certificação SSL:
pip-cert
Criar o escopo secreto
Um escopo secreto pode ser criado usando o Databricks CLI comando secrets ou REST API o comando. Depois de criar o escopo secreto, configure as ACLs para conceder acesso de leitura a todos os usuários do site workspace. Isso garante que o repositório permaneça seguro e não possa ser alterado por usuários individuais.
databricks secrets create-scope databricks-package-management
databricks secrets put-acl databricks-package-management admins MANAGE
databricks secrets put-acl databricks-package-management users READ
Adicionar segredos do repositório Python pacote
Adicione os detalhes do repositório do pacote Python usando os nomes de chave secreta predefinidos.
# Add index URL.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-index-url", "string_value":"<index-url-value>"}'
# Add extra index URLs. If you have multiple extra index URLs, separate them using white space.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-extra-index-urls", "string_value":"<extra-index-url-1 extra-index-url-2>"}'
# Add cert content. If you want to pip configure a custom SSL certificate, put the cert file content here.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-cert", "string_value":"<cert-content>"}'
Modificar ou excluir segredos privados do repositório PyPI
Para modificar os segredos do repositório PyPI, use o comando put-secret
. Para excluir os segredos do repositório PyPI, use delete-secret
conforme mostrado abaixo:
# delete secret
databricks secrets delete-secret databricks-package-management pip-index-url
databricks secrets delete-secret databricks-package-management pip-extra-index-urls
databricks secrets delete-secret databricks-package-management pip-cert
# delete scope
databricks secrets delete-scope databricks-package-management
Observação
As modificações ou exclusões de segredos são aplicadas depois que um usuário anexa novamente serverless compute ao Notebook ou executa novamente o trabalho serverless.