Instalar as dependências do Notebook
Prévia
Esse recurso está em Private Preview. Para obter informações sobre elegibilidade e habilitação, consulte Enable serverless compute .
O senhor pode instalar as dependências do Python para o serverless Notebook usando o painel lateral Environment. Esse painel oferece um único local para editar, view e exportar os requisitos de biblioteca do Notebook. Essas dependências podem ser adicionadas usando um ambiente básico ou individualmente.
Para tarefas que não sejamNotebook, consulte Configurar ambientes e dependências para tarefas que não sejamNotebook .
Importante
Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência do seu notebook serverless. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, Reset seu ambiente.
Configurar um ambiente básico
Um ambiente básico é um arquivo YAML armazenado como um arquivo workspace ou em um volume Unity Catalog que especifica dependências de ambiente adicionais. Os ambientes básicos podem ser compartilhados entre o Notebook. Para configurar um ambiente básico:
Crie um arquivo YAML que defina as configurações de um ambiente virtual Python. O exemplo YAML a seguir, que se baseia na especificação do ambiente de projetos do MLflow, define um ambiente básico com algumas dependências de biblioteca:
client: "1" dependencies: - --index-url https://pypi.org/simple - -r "/Workspace/Shared/requirements.txt" - cowsay==6.1 - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl" - git+https://github.com/databricks/databricks-cli
Carregue o arquivo YAML como um arquivo workspace ou em um volume Unity Catalog. Consulte Importar um arquivo ou Fazer upload de arquivos para um volume do Unity Catalog.
À direita do site Notebook, clique no botão para expandir o painel Environment. Esse botão só aparece quando um Notebook está conectado a serverless compute.
No campo Base Environment (Ambiente básico ), digite o caminho do arquivo YAML de upload ou navegue até ele e selecione-o.
Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.
Os usuários podem substituir as dependências especificadas no ambiente básico instalando as dependências individualmente.
Adicionar dependências individualmente
O senhor também pode instalar dependências em um Notebook conectado a serverless compute usando Dependencies tab do painel Environment:
À direita do site Notebook, clique no botão para expandir o painel Environment (Ambiente ). Esse botão só aparece quando um Notebook está conectado a serverless compute.
Na seção Dependencies (Dependências ), clique em Add Dependency (Adicionar dependência ) e insira o caminho da dependência da biblioteca no campo. O senhor pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt.
Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.
Observação
Um trabalho usando serverless compute instalará a especificação de ambiente do Notebook antes de executar o código do Notebook. Isso significa que não há necessidade de adicionar dependências ao programar o Notebook como Job. Consulte Configurar ambientes e dependências.
Exibir as dependências instaladas e os registros do pip
Para acessar view as dependências instaladas, clique em Installed (Instalado ) no painel lateral Environments (Ambientes ) para acessar Notebook. A instalação do Pip logs para o ambiente Notebook também está disponível clicando em Pip logs na parte inferior do painel.
Reset o meio ambiente
Se o seu Notebook estiver conectado ao serverless compute, o Databricks armazenará automaticamente em cache o conteúdo do ambiente virtual do Notebook. Isso significa que, em geral, o senhor não precisa reinstalar as dependências do Python especificadas no painel Environment ao abrir um Notebook existente, mesmo que ele tenha sido desconectado devido à inatividade.
Python O cache de ambiente virtual também se aplica ao Job. Isso significa que a execução subsequente do trabalho é mais rápida, pois as dependências necessárias já estão disponíveis.
Observação
Se o senhor alterar a implementação de um pacote Python personalizado que é usado em um Job em serverless, também deverá atualizar o número da versão para que o Job pegue a implementação mais recente.
Para limpar o cache do ambiente e executar uma nova instalação das dependências especificadas no painel Environment (Ambiente ) de um Notebook anexado a serverless compute, clique na seta ao lado de Apply (Aplicar ) e, em seguida, clique em Reset environment (Ambiente).
Observação
Reset o ambiente virtual se o senhor instalar um pacote que interrompa ou altere o núcleo do ambiente Notebook ou Apache Spark. Desanexar o Notebook do serverless compute e reanexá-lo não necessariamente limpa todo o cache do ambiente.
Configurar ambientes e dependências para nãoNotebook tarefa
Para outros tipos de tarefas compatíveis, como Python script, Python wheel ou dbt tarefa, um ambiente default inclui a instalação da Python biblioteca. Para ver a lista de bibliotecas instaladas, consulte a seção Installed Python biblioteca nas notas sobre a versão da versão Databricks Runtime na qual se baseia a implantação do seu serverless compute para fluxo de trabalho. Para ver a versão atual do Databricks Runtime usada pelo serverless compute para fluxo de trabalho, consulte serverless compute notas sobre a versão. Se uma tarefa Python exigir uma biblioteca que não esteja instalada, o senhor poderá instalar a biblioteca a workspace partirUnity Catalog de arquivos, volumes ou repositórios de pacotes públicos. Para adicionar uma biblioteca quando o senhor criar ou editar uma tarefa:
No menu Environment and library (Ambiente e biblioteca ) dropdown, clique em ao lado do ambiente ou clique em + Add new environment (Adicionar novo ambiente). default ambiente ou clique em + Add new environment (Adicionar novo ambiente).
Na caixa de diálogo Configurar ambiente, clique em + Adicionar biblioteca.
Selecione o tipo de dependência no menu dropdown em biblioteca.
Na caixa de texto File Path (Caminho do arquivo ), digite o caminho para a biblioteca.
Para um Python wheel em um arquivo workspace, o caminho deve ser absoluto e começar com
/Workspace/
.Para um Python wheel em um volume Unity Catalog, o caminho deve ser
/Volumes/<catalog>/<schema>/<volume>/<path>.whl
.Para um arquivo
requirements.txt
, selecione PyPi e digite-r /path/to/requirements.txt
.
Clique em Confirm (Confirmar ) ou + Add library (Adicionar biblioteca ) para adicionar outra biblioteca.
Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa).