Introdução aos objetos do workspace

Este artigo apresenta uma introdução de alto nível dos objetos do workspace do Databricks. Você pode criar, visualizar e organizar objetos do workspace no navegador do workspace entre personas.

Observação sobre o nome workspace ativo

O nome completo de um workspace ativo consiste em seu nome de base e sua extensão de arquivo. Por exemplo, a extensão de arquivo de um Notebook pode ser .py, .sql, .scala, .r e .ipynb, dependendo do idioma e do formato do Notebook.

Quando o senhor cria um Notebook ativo, seu nome básico e seu nome completo (o nome básico concatenado com a extensão do arquivo) devem ser exclusivos em qualquer pasta do site workspace. Quando o usuário nomeia um ativo, o Databricks verifica se ele atende a esse critério adicionando a extensão do arquivo a ele e, se o nome completo corresponder a um arquivo existente na pasta, o nome não será permitido e o usuário deverá escolher um novo nome para o Notebook. Por exemplo, se o senhor tentar criar um Notebook Python (no formato de fonte Python ) chamado test na mesma pasta que um arquivo Python chamado test.py, isso não será permitido.

Clusters

Databricks ciência de dados & engenharia e Databricks Mosaic AI clusters fornecem uma plataforma unificada para vários casos de uso, como a execução do pipeline de produção ETL, transmissão analítica, análise ad-hoc e machine learning. Um cluster é um tipo de Databricks compute recurso. Outros tipos de recurso compute incluem Databricks SQL warehouse.

Para obter informações detalhadas sobre gerenciamento e uso de clusters, consulte Compute.

Notebooks

O site Notebook é uma interface baseada na Web para documentos que contêm uma série de células executáveis (comando) que operam em arquivos e tabelas, visualizações e texto narrativo. comando pode ser executado em sequência, referindo-se à saída de um ou mais comandos executados anteriormente.

Os notebooks são um mecanismo para executar código no Databricks. O outro mecanismo são os jobs.

Para obter informações detalhadas sobre como gerenciar e usar notebooks, consulte Introdução aos notebook do Databricks.

Jobs

Os jobs são um mecanismo para executar código no Databricks. O outro mecanismo é notebooks.

Para obter informações detalhadas sobre como gerenciar e usar o Job, consulte programar e orquestrar o fluxo de trabalho.

Bibliotecas

Uma biblioteca disponibiliza códigos de terceiros ou criados localmente para notebooks e jobs executados em seus clusters.

Para obter informações detalhadas sobre como gerenciar e usar bibliotecas, consulte Bibliotecas.

Dados

Você pode importar dados para um sistema de arquivos distribuído montado em um workspace do Databricks e trabalhar com eles em notebooks e clusters do Databricks. Você também pode usar uma grande variedade de fontes de dados do Apache Spark para acessar os dados.

Para obter informações detalhadas sobre o carregamento de dados, consulte Ingerir dados em um Databricks lakehouse.

Arquivos

Visualização

Esse recurso está na Prévia Pública.

Em Databricks Runtime 11.3 LTS e acima, o senhor pode criar e usar arquivos arbitrários no Databricks workspace. Os arquivos podem ser de qualquer tipo. Exemplos comuns incluem:

  • .py arquivos utilizados em módulos personalizados.

  • .md arquivos como README.md.

  • .csv ou outros pequenos arquivos de dados.

  • .txt arquivos.

  • Arquivos de log.

Para obter informações detalhadas sobre o uso de arquivos, consulte Trabalhar com arquivos no Databricks. Para obter informações sobre como usar arquivos para modularizar seu código à medida que você desenvolve com o Databricks Notebook, consulte Compartilhar código entre o Databricks Notebook

Pastas do Git

As pastas Git são pastas do Databricks cujo conteúdo é convertido em conjunto, sincronizando-as com um repositório Git remoto. Usando as pastas Git do Databricks, é possível desenvolver o Notebook no Databricks e usar um repositório Git remoto para colaboração e controle de versão.

Para obter informações detalhadas sobre o uso de repositórios, consulte Git integration for Databricks Git folders.

Modelos

Modelo refere-se a um modelo registrado no MLflow Model Registry. O Registro de Modelo é um repositório de modelos centralizado que permite gerenciar todo o ciclo de vida dos modelos MLflow. Ele fornece a linhagem cronológica do modelo, o controle de versão do modelo, as transições de estágio e as anotações e descrições do modelo e da versão do modelo.

Para obter informações detalhadas sobre o gerenciamento e o uso de modelos, consulte gerenciar o ciclo de vida do modelo no Unity Catalog.

Experimentos

Um experimento do MLflow é a principal unidade de organização e controle de acesso para execuções de treinamento do modelo de aprendizado de máquina MLflow; todas as execuções do MLflow pertencem a um experimento. Cada experimento permite visualizar, pesquisar e comparar execuções, bem como baixar artefatos de execução ou metadados para análise em outras ferramentas.

Para obter informações detalhadas sobre como gerenciar e usar experimentos, consulte Organizar execuções de treinamento com experimentos do MLflow.

Queries

Consultas são instruções SQL que permitem interagir com seus dados. Para mais informações, consulte Aceder e gerir consultas guardadas.

Painéis

Os painéis são apresentações de visualizações de consultas e comentários. Consulte Dashboards ou Dashboards herdados.

Alertas

alerta são notificações de que um campo retornado por uma query atingiu um limite. Para obter mais informações, consulte O que são alerta Databricks SQL ?.

Referências a objetos do espaço de trabalho

Historicamente, os usuários eram obrigados a incluir o prefixo de caminho /Workspace para algumas APIs da Databricks (%sh), mas não para outras (%run, entradas da API REST).

Os usuários podem usar os caminhos workspace com o prefixo /Workspace em qualquer lugar. As referências antigas a caminhos sem o prefixo /Workspace são redirecionadas e continuam funcionando. Recomendamos que todos os caminhos de workspace tenham o prefixo /Workspace para diferenciá-los dos caminhos de Volume e DBFS.

O pré-requisito para o comportamento consistente do prefixo de caminho /Workspace é o seguinte: Não pode haver uma pasta /Workspace no nível raiz do site workspace. Se o senhor tiver uma pasta /Workspace no nível da raiz e quiser ativar esse aprimoramento de UX, exclua ou renomeie a pasta /Workspace que criou e entre em contato com a equipe da Databricks account.

Compartilhar um arquivo, pasta ou URL Notebook

Em seu Databricks workspace, os URLs dos arquivos workspace, do Notebook e das pastas estão nos formatos:

workspace URLs de arquivos

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

Notebook URLs

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

URLs de pastas (workspace e Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Esses links podem ser interrompidos se qualquer pasta, arquivo ou Notebook no caminho atual for atualizado com um comando Git pull ou for excluído e recriado com o mesmo nome. No entanto, o senhor pode criar um link com base no caminho workspace para compartilhar com outros usuários do Databricks com níveis de acesso apropriados, alterando-o para um link nesse formato:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Os links para pastas, Notebook e arquivos podem ser compartilhados substituindo tudo no URL após ?o=<16-digit-workspace-ID> pelo caminho para o arquivo, pasta ou Notebook na raiz do workspace. Se o senhor estiver compartilhando um URL para uma pasta, remova também /browse/folders/<16-digit-ID> do URL original.

Para obter o caminho do arquivo, abra o menu de contexto clicando com o botão direito do mouse na pasta, Notebook, ou no arquivo em seu workspace que deseja compartilhar e selecione Copy URL/path > Full path. Anexe #workspace ao caminho do arquivo que acabou de copiar e acrescente as strings resultantes após ?o=<16-digit-workspace-ID> para que correspondam ao formato de URL acima.

Selecionando a opção Copiar caminho de URL seguido de Caminho completo no menu de contexto de uma pasta workspace.

Exemplo de formulação de URL nº 1: URLs de pastas

Para compartilhar o URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222 da pasta workspace, remova a substring browse/folders/1111111111111111 do URL. Adicione #workspace seguido do caminho para a pasta ou o objeto workspace que deseja compartilhar.

Nesse caso, o caminho workspace é para uma pasta, /Workspace/Users/user@example.com/team-git/notebooks. Depois de copiar o caminho completo do site workspace, o senhor pode criar o link compartilhável:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Exemplo de formulação de URL 2: Notebook URLs

Para compartilhar o URL Notebook https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333, remova #notebook/2222222222222222/command/3333333333333333. Adicione #workspace seguido do caminho para a pasta ou o objeto workspace.

Nesse caso, o caminho workspace aponta para um Notebook, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Depois de copiar o caminho completo do site workspace, o senhor pode criar o link compartilhável:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Agora o senhor tem um URL estável para um arquivo, pasta ou caminho Notebook para compartilhar! Para obter mais informações sobre URLs e identificadores, consulte Obter identificadores para objetos workspace .