Instalar as dependências do Notebook

Prévia

Esse recurso está em Private Preview. Para obter informações sobre elegibilidade e habilitação, consulte Enable serverless compute .

O senhor pode instalar as dependências do Python para o serverless Notebook usando o painel lateral Environment. Esse painel oferece um único local para editar, view e exportar os requisitos de biblioteca do Notebook. Essas dependências podem ser adicionadas usando um ambiente básico ou individualmente.

serverless painel de ambiente

Para tarefas que não sejamNotebook, consulte Configurar ambientes e dependências para tarefas que não sejamNotebook .

Importante

Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência do seu notebook serverless. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, Reset seu ambiente.

Configurar um ambiente básico

Um ambiente básico é um arquivo YAML armazenado como um arquivo workspace ou em um volume Unity Catalog que especifica dependências de ambiente adicionais. Os ambientes básicos podem ser compartilhados entre o Notebook. Para configurar um ambiente básico:

  1. Crie um arquivo YAML que defina as configurações de um ambiente virtual Python. O exemplo YAML a seguir, que se baseia na especificação do ambiente de projetos do MLflow, define um ambiente básico com algumas dependências de biblioteca:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - cowsay==6.1
      - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl"
      - git+https://github.com/databricks/databricks-cli
    
  2. Carregue o arquivo YAML como um arquivo workspace ou em um volume Unity Catalog. Consulte Importar um arquivo ou Fazer upload de arquivos para um volume do Unity Catalog.

  3. À direita do site Notebook, clique no botão ambiente para expandir o painel Environment. Esse botão só aparece quando um Notebook está conectado a serverless compute.

  4. No campo Base Environment (Ambiente básico ), digite o caminho do arquivo YAML de upload ou navegue até ele e selecione-o.

  5. Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.

Os usuários podem substituir as dependências especificadas no ambiente básico instalando as dependências individualmente.

Adicionar dependências individualmente

O senhor também pode instalar dependências em um Notebook conectado a serverless compute usando Dependencies tab do painel Environment:

  1. À direita do site Notebook, clique no botão ambiente para expandir o painel Environment (Ambiente ). Esse botão só aparece quando um Notebook está conectado a serverless compute.

  2. Na seção Dependencies (Dependências ), clique em Add Dependency (Adicionar dependência ) e insira o caminho da dependência da biblioteca no campo. O senhor pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt.

  3. Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.

Observação

Um trabalho usando serverless compute instalará a especificação de ambiente do Notebook antes de executar o código do Notebook. Isso significa que não há necessidade de adicionar dependências ao programar o Notebook como Job. Consulte Configurar ambientes e dependências.

Exibir as dependências instaladas e os registros do pip

Para acessar view as dependências instaladas, clique em Installed (Instalado ) no painel lateral Environments (Ambientes ) para acessar Notebook. A instalação do Pip logs para o ambiente Notebook também está disponível clicando em Pip logs na parte inferior do painel.

Reset o meio ambiente

Se o seu Notebook estiver conectado ao serverless compute, o Databricks armazenará automaticamente em cache o conteúdo do ambiente virtual do Notebook. Isso significa que, em geral, o senhor não precisa reinstalar as dependências do Python especificadas no painel Environment ao abrir um Notebook existente, mesmo que ele tenha sido desconectado devido à inatividade.

Python O cache de ambiente virtual também se aplica ao Job. Isso significa que a execução subsequente do trabalho é mais rápida, pois as dependências necessárias já estão disponíveis.

Observação

Se o senhor alterar a implementação de um pacote Python personalizado que é usado em um Job em serverless, também deverá atualizar o número da versão para que o Job pegue a implementação mais recente.

Para limpar o cache do ambiente e executar uma nova instalação das dependências especificadas no painel Environment (Ambiente ) de um Notebook anexado a serverless compute, clique na seta ao lado de Apply (Aplicar ) e, em seguida, clique em Reset environment (Ambiente).

Observação

Reset o ambiente virtual se o senhor instalar um pacote que interrompa ou altere o núcleo do ambiente Notebook ou Apache Spark. Desanexar o Notebook do serverless compute e reanexá-lo não necessariamente limpa todo o cache do ambiente.

Configurar ambientes e dependências para nãoNotebook tarefa

Para outros tipos de tarefas compatíveis, como Python script, Python wheel ou dbt tarefa, um ambiente default inclui a instalação da Python biblioteca. Para ver a lista de bibliotecas instaladas, consulte a seção Installed Python biblioteca nas notas sobre a versão da versão Databricks Runtime na qual se baseia a implantação do seu serverless compute para fluxo de trabalho. Para ver a versão atual do Databricks Runtime usada pelo serverless compute para fluxo de trabalho, consulte serverless compute notas sobre a versão. Se uma tarefa Python exigir uma biblioteca que não esteja instalada, o senhor poderá instalar a biblioteca a workspace partirUnity Catalog de arquivos, volumes ou repositórios de pacotes públicos. Para adicionar uma biblioteca quando o senhor criar ou editar uma tarefa:

  1. No menu Environment and library (Ambiente e biblioteca ) dropdown, clique em ícone de edição ao lado do ambiente ou clique em + Add new environment (Adicionar novo ambiente). default ambiente ou clique em + Add new environment (Adicionar novo ambiente).

    Editar o ambiente default
  2. Na caixa de diálogo Configurar ambiente, clique em + Adicionar biblioteca.

  3. Selecione o tipo de dependência no menu dropdown em biblioteca.

  4. Na caixa de texto File Path (Caminho do arquivo ), digite o caminho para a biblioteca.

  • Para um Python wheel em um arquivo workspace, o caminho deve ser absoluto e começar com /Workspace/.

  • Para um Python wheel em um volume Unity Catalog, o caminho deve ser /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Para um arquivo requirements.txt, selecione PyPi e digite -r /path/to/requirements.txt.

    Adicionar tarefa biblioteca
  1. Clique em Confirm (Confirmar ) ou + Add library (Adicionar biblioteca ) para adicionar outra biblioteca.

  2. Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa).