Introdução aos objetos do workspace
Este artigo apresenta uma introdução de alto nível dos objetos do workspace do Databricks. Você pode criar, visualizar e organizar objetos do workspace no navegador do workspace entre personas.
Observação sobre o nome workspace ativo
O nome completo de um workspace ativo consiste em seu nome de base e sua extensão de arquivo. Por exemplo, a extensão de arquivo de um Notebook pode ser .py
, .sql
, .scala
, .r
e .ipynb
, dependendo do idioma e do formato do Notebook.
Quando o senhor cria um Notebook ativo, seu nome básico e seu nome completo (o nome básico concatenado com a extensão do arquivo) devem ser exclusivos em qualquer pasta do site workspace. Quando o usuário nomeia um ativo, o Databricks verifica se ele atende a esse critério adicionando a extensão do arquivo a ele e, se o nome completo corresponder a um arquivo existente na pasta, o nome não será permitido e o usuário deverá escolher um novo nome para o Notebook. Por exemplo, se o senhor tentar criar um Notebook Python (no formato de fonte Python ) chamado test
na mesma pasta que um arquivo Python chamado test.py
, isso não será permitido.
Clusters
Databricks ciência de dados & engenharia e Databricks Mosaic AI clusters fornecem uma plataforma unificada para vários casos de uso, como a execução do pipeline de produção ETL, transmissão analítica, análise ad-hoc e machine learning. Um cluster é um tipo de Databricks compute recurso. Outros tipos de recurso compute incluem Databricks SQL warehouse.
Para obter informações detalhadas sobre gerenciamento e uso de clusters, consulte Compute.
Notebooks
O site Notebook é uma interface baseada na Web para documentos que contêm uma série de células executáveis (comando) que operam em arquivos e tabelas, visualizações e texto narrativo. comando pode ser executado em sequência, referindo-se à saída de um ou mais comandos executados anteriormente.
Os notebooks são um mecanismo para executar código no Databricks. O outro mecanismo são os jobs.
Para obter informações detalhadas sobre como gerenciar e usar notebooks, consulte Introdução aos notebook do Databricks.
Jobs
Os jobs são um mecanismo para executar código no Databricks. O outro mecanismo é notebooks.
Para obter informações detalhadas sobre como gerenciar e usar o Job, consulte programar e orquestrar o fluxo de trabalho.
Bibliotecas
Uma biblioteca disponibiliza códigos de terceiros ou criados localmente para notebooks e jobs executados em seus clusters.
Para obter informações detalhadas sobre como gerenciar e usar bibliotecas, consulte Bibliotecas.
Dados
Você pode importar dados para um sistema de arquivos distribuído montado em um workspace do Databricks e trabalhar com eles em notebooks e clusters do Databricks. Você também pode usar uma grande variedade de fontes de dados do Apache Spark para acessar os dados.
Para obter informações detalhadas sobre o carregamento de dados, consulte Ingerir dados em um Databricks lakehouse.
Arquivos
Visualização
Esse recurso está na Prévia Pública.
Em Databricks Runtime 11.3 LTS e acima, o senhor pode criar e usar arquivos arbitrários no Databricks workspace. Os arquivos podem ser de qualquer tipo. Exemplos comuns incluem:
.py
arquivos utilizados em módulos personalizados..md
arquivos comoREADME.md
..csv
ou outros pequenos arquivos de dados..txt
arquivos.Arquivos de log.
Para obter informações detalhadas sobre o uso de arquivos, consulte Trabalhar com arquivos no Databricks. Para obter informações sobre como usar arquivos para modularizar seu código à medida que você desenvolve com o Databricks Notebook, consulte Compartilhar código entre o Databricks Notebook
Pastas do Git
As pastas Git são pastas do Databricks cujo conteúdo é convertido em conjunto, sincronizando-as com um repositório Git remoto. Usando as pastas Git do Databricks, é possível desenvolver o Notebook no Databricks e usar um repositório Git remoto para colaboração e controle de versão.
Para obter informações detalhadas sobre o uso de repositórios, consulte Git integration for Databricks Git folders.
Modelos
Modelo refere-se a um modelo registrado no MLflow Model Registry. O Registro de Modelo é um repositório de modelos centralizado que permite gerenciar todo o ciclo de vida dos modelos MLflow. Ele fornece a linhagem cronológica do modelo, o controle de versão do modelo, as transições de estágio e as anotações e descrições do modelo e da versão do modelo.
Para obter informações detalhadas sobre o gerenciamento e o uso de modelos, consulte gerenciar o ciclo de vida do modelo no Unity Catalog.
Experimentos
Um experimento do MLflow é a principal unidade de organização e controle de acesso para execuções de treinamento do modelo de aprendizado de máquina MLflow; todas as execuções do MLflow pertencem a um experimento. Cada experimento permite visualizar, pesquisar e comparar execuções, bem como baixar artefatos de execução ou metadados para análise em outras ferramentas.
Para obter informações detalhadas sobre como gerenciar e usar experimentos, consulte Organizar execuções de treinamento com experimentos do MLflow.
Queries
Consultas são instruções SQL que permitem interagir com seus dados. Para mais informações, consulte Aceder e gerir consultas guardadas.
Painéis
Os painéis são apresentações de visualizações de consultas e comentários. Consulte Dashboards ou Dashboards herdados.
Alertas
alerta são notificações de que um campo retornado por uma query atingiu um limite. Para obter mais informações, consulte O que são alerta Databricks SQL ?.
Referências a objetos do espaço de trabalho
Historicamente, os usuários eram obrigados a incluir o prefixo de caminho /Workspace
para algumas APIs da Databricks (%sh
), mas não para outras (%run
, entradas da API REST).
Os usuários podem usar os caminhos workspace com o prefixo /Workspace
em qualquer lugar. As referências antigas a caminhos sem o prefixo /Workspace
são redirecionadas e continuam funcionando. Recomendamos que todos os caminhos de workspace tenham o prefixo /Workspace
para diferenciá-los dos caminhos de Volume e DBFS.
O pré-requisito para o comportamento consistente do prefixo de caminho /Workspace
é o seguinte: Não pode haver uma pasta /Workspace
no nível raiz do site workspace. Se o senhor tiver uma pasta /Workspace
no nível da raiz e quiser ativar esse aprimoramento de UX, exclua ou renomeie a pasta /Workspace
que criou e entre em contato com a equipe da Databricks account.