Pular para o conteúdo principal

Conceitos do Databricks

Este artigo apresenta os conceitos fundamentais que o senhor precisa entender para usar o site Databricks de forma eficaz.

conta e espaço de trabalho

No Databricks, um workspace é uma implantação do Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários workspace ou apenas um, dependendo das suas necessidades.

UM Databricks account representa uma única entidade para fins de faturamento e suporte. A conta pode incluir vários espaços de trabalho.

Faturamento: Databricks units (DBUs)

O Databricks fatura com base em unidades de Databricks (DBUs), que são unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a páginaDatabricks on Google Cloud preços.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber quando gerencia identidades do Databricks e seu acesso aos ativos do Databricks.

Usuário

Um indivíduo único que tem acesso ao sistema. As identidades dos usuários são representadas por endereços email. Consulte gerenciar usuários.

entidade de serviço

Uma identidade de serviço para uso com o Job, ferramentas e sistemas automatizados, como scripts, aplicativos e plataformas CI/CD. entidade de serviço são representados por um ID de aplicativo. Consulte gerenciar entidade de serviço.

Grupo

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidade, facilitando a atribuição de acesso ao espaço de trabalho, aos dados e a outros objetos seguros. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Ver grupos de gerenciar.

Lista de controle de acesso (ACL)

Uma lista de permissões anexadas ao site workspace, ao clustering, ao Job, à tabela ou ao experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.

Tokens de acesso pessoal (PAT)

Um token de acesso pessoal é uma cadeia de caracteres usada para autenticar chamadas REST API , conexões de parceiros tecnológicos e outras ferramentas. Consulte Databricks autenticação de tokens de acesso pessoal.

Interfaces do Databricks

Esta seção descreve as interfaces para acessar seu ativo em Databricks.

UI

A interface do usuário do Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.

API REST

O Databricks REST API fornece um ponto de extremidade para modificar ou solicitar informações sobre os objetos Databricks account e workspace. Consulte a referênciaaccount e a referênciaworkspace.

API REST DO SQL

O SQL REST API permite que o senhor automatize a tarefa em objetos SQL. Consulte API do SQL.

CLI

A CLI da Databricks está hospedada no GitHub. A CLI foi criada com base na API REST da Databricks.

gestão de dados

Esta seção descreve as ferramentas e os objetos lógicos usados para organizar e controlar os dados nos Databricks. Consulte Objetos de banco de dados em Databricks.

Unity Catalog

Unity Catalog é uma solução de governança unificada para dados e AI ativo em Databricks que oferece recursos centralizados de controle de acesso, auditoria, linhagem e descobrimento de dados no espaço de trabalho Databricks. Consulte O que é o Unity Catalog?

Os catálogos são o contêiner de nível mais alto para organizar e isolar dados em Databricks. O senhor pode compartilhar catálogos entre espaços de trabalho na mesma região e account. Consulte O que são catálogos no Databricks?

Esquema

Os esquemas, também conhecidos como bancos de dados, estão contidos em catálogos e fornecem um nível de organização mais granular. Eles contêm objetos de banco de dados e AI ativos, como volumes, tabelas, funções e modelos. Consulte O que são esquemas em Databricks?

Tabela

As tabelas organizam e controlam o acesso aos dados estruturados. O senhor consulta tabelas com o Apache Spark SQL e as APIs do Apache Spark. Consulte O que é uma mesa?.

visualização

Um view é um objeto somente leitura derivado de uma ou mais tabelas e visualizações. salvam consultas que são definidas em tabelas. Consulte O que é um view?

Volume

Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos na nuvem e organizam e controlam o acesso a dados não tabulares. A Databricks recomenda o uso de volumes para gerenciar todo o acesso a dados não tabulares no armazenamento de objetos na nuvem. Consulte O que são volumes do Unity Catalog?

Mesa Delta

Por padrão, todas as tabelas criadas no Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de software livre Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos em nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos em nuvem e registra os metadados da tabela no metastore em um catálogo e esquema.

Saiba mais sobre a tecnologia de marcas em Delta.

Metastore

Unity Catalog fornece um metastore de nível accountque registra metadados sobre dados, AI e permissões sobre catálogos, esquemas e tabelas. Veja Metastores.

Databricks fornece um legado Hive metastore para clientes que não adotaram o Unity Catalog. Consulte Hive metastore controle de acesso da tabela (legado).

O Catalog Explorer permite que o senhor explore e gerencie dados e AI ativos, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos ML registrados. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.

DBFS root

important

O armazenamento e o acesso a montagens de uso de dados DBFS root ou DBFS é um padrão obsoleto e não é recomendado por Databricks. Em vez disso, a Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados. Consulte O que é o Unity Catalog?

O DBFS root é um local de armazenamento disponível para todos os usuários pelo default. Consulte O que é DBFS?

Gerenciamento de computação

Esta seção descreve os conceitos que você precisa conhecer para executar cálculos no Databricks.

agrupamento

Um conjunto de recursos e configurações de computação no qual o senhor executa o Notebook e o Job. Há dois tipos de clustering: multifuncional e de trabalho. Veja computar.

  • Você cria um cluster para todos os fins usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster multifuncional. Vários usuários podem compartilhar esses clusters para fazer análises interativas colaborativas.
  • O programador de trabalhos Databricks cria um agrupamento de trabalhos quando o senhor executa um trabalho em um novo agrupamento de trabalhos e encerra o agrupamento quando o trabalho é concluído. O senhor não pode reiniciar um clustering de trabalhos.

piscina

Um conjunto de instâncias paradas, prontas para uso, que reduzem o tempo de início do clustering e do dimensionamento automático. Quando anexado a um pool, um clustering aloca seus nós driver e worker do pool. Consulte a referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por outro cluster.

Tempo de execução do Databricks

O conjunto de componentes principais que o senhor executa no clustering gerenciado por Databricks. Veja computar. O Databricks tem os seguintes tempos de execução:

  • Databricks Runtime inclui o Apache Spark, mas também adiciona vários componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise big data.
  • Databricks Runtime O for Machine Learning foi desenvolvido com base no site Databricks Runtime e fornece uma infraestrutura de aprendizado de máquina pré-construída que é integrada a todos os recursos do site Databricks workspace. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch, e XGBoost.

fluxo de trabalho

A UI do fluxo de trabalho workspace fornece acesso às UIs do pipeline de Jobs e DLT, que são ferramentas que permitem orquestrar e programar o fluxo de trabalho.

Empregos

Um mecanismo não interativo para orquestrar e programar o Notebook, a biblioteca e outras tarefas. Ver trabalhos de orquestração usando o Databricks

tubulação

O pipeline DLT oferece uma estrutura declarativa para a criação de um pipeline de processamento de dados confiável, sustentável e testável. Consulte O que é DLT? .

Carga de trabalho

Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose).

  • Data engineering Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Databricks cria para cada carga de trabalho.
  • análise de dados An (interactive) workload execution on an clusters todo-propósito . As cargas de trabalho interativas geralmente são executadas em um Databricks notebook. No entanto, a execução de um trabalho em um clustering multifuncional existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de impressão (REPL) de leitura para cada linguagem de programação compatível. As linguagens compatíveis são Python, R, Scala e SQL.

Engenharia de dados

As ferramentas de engenharia de dados ajudam a colaboração entre data scientists, engenheiros de dados, analistas de dados e engenheiros de aprendizado de máquina.

espaço de trabalho

A workspace é um ambiente para acessar todo o seu Databricks ativo. O site workspace organiza os objetos (Notebook, biblioteca, dashboards e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Notebook

Uma interface baseada na Web para a criação de ciência de dados e fluxo de trabalho de aprendizado de máquina que pode conter comandos executáveis, visualizações e texto narrativo. Consulte Introdução ao Databricks Notebook.

biblioteca

Um pacote de código disponível para o Notebook ou Job em execução em seu clustering. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver biblioteca.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo é convertido em conjunto, sincronizando-o com um repositório Git remoto. As pastas Git da Databricks integram-se ao Git para fornecer controle de origem e de versão para seus projetos.

AI e aprendizado de máquina

Databricks fornece um ambiente integrado de ponta a ponta com serviço gerenciado para desenvolvimento e implantação de aplicativos de aprendizado de máquina e AI.

Mosaic AI

O nome da marca de produto e serviço da Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsáveis pelos maiores avanços da Databricks na área generativa AI. Mosaic AI Os produtos incluem o recurso ML e AI em Databricks. Veja Mosaic Research.

Tempo de execução de aprendizado de máquina

Para ajudá-lo a desenvolver modelos ML e AI, a Databricks fornece um Databricks Runtime para aprendizado de máquina, que automatiza a criação compute com aprendizado de máquina pré-construído e infraestrutura profunda, incluindo a biblioteca ML e DL mais comum. Ele também tem suporte integrado e pré-configurado para GPU, incluindo drivers e biblioteca de suporte. Navegue até as informações sobre os últimos lançamentos de tempo de execução em Databricks Runtime notas sobre versões e compatibilidade.

Experiência

Uma coleção de MLflow execução para treinamento de um modelo de aprendizado de máquina. Consulte Organizar treinamento execução com os experimentos do MLflow.

recurso

Os recursos são um componente importante dos modelos do site ML. Um armazenamento de recursos permite o compartilhamento e a descoberta de recursos em toda a organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos. Ver recurso engenharia e servir.

Modelos generativos AI

Databricks oferece suporte à exploração, ao desenvolvimento e à implantação de modelos generativos de AI, incluindo:

Registro de modelos

A Databricks fornece uma versão hospedada do MLflow Model Registry no Unity Catalog. Os modelos registrados em Unity Catalog herdam controle de acesso centralizado, linhagem e descoberta e acesso entreworkspace. Veja como gerenciar o ciclo de vida do modelo em Unity Catalog.

servindo modelo

Mosaic AI Model Serving oferece uma interface unificada para implantar, administrar e consultar modelos AI. Cada modelo que o senhor atende está disponível como uma API REST que pode ser integrada ao seu aplicativo da Web ou cliente. Com o site Mosaic AI Model Serving, o senhor pode implantar seus próprios modelos, modelos de fundação ou modelos de terceiros hospedados fora do site Databricks. Veja os modelos implantados usando Mosaic AI Model Serving.

armazenamento de dados

O data warehousing refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios de negócios. Databricks SQL é o conjunto de serviços que traz data warehousing recursos e desempenho para o seu lago de dados existente. Consulte O que é data warehousing na Databricks?

Consulta

Uma consulta é uma instrução SQL válida que permite que o senhor interaja com seus dados. O senhor pode criar consultas usando o editor SQL na plataforma ou conectar-se usando um conector, driver ou API SQL. Consulte Acessar e gerenciar consultas salvas para saber mais sobre como trabalhar com consultas.

SQL warehouse

Um recurso de computação no qual o senhor executa SQL consultas. Há três tipos de armazém SQL: Clássico, Pro e sem servidor. Databricks recomenda o uso do site serverless warehouses quando disponível. Consulte SQL warehouse types para comparar os recursos disponíveis para cada tipo de depósito.

Histórico de consultas

Uma lista de consultas executadas e suas características de desempenho. A história da consulta permite que o senhor monitore o desempenho da consulta, ajudando-o a identificar gargalos e otimizar os tempos de execução da consulta. Consulte Histórico de consultas.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Consulte Visualizações em Databricks Notebook.

Painel de controle

Uma apresentação de visualizações e comentários de dados. O senhor pode usar painéis para enviar relatórios automaticamente para qualquer pessoa em seu site Databricks account. Use o Databricks Assistant para ajudá-lo a criar visualizações com base em prompts de linguagem natural. Consulte Painéis. O senhor também pode criar um painel a partir de um Notebook. Consulte Dashboards no Notebook.

Para painéis legados, consulte Painéis legados.

important
  • Databricks recomenda o uso do AI/BI dashboards (anteriormente Lakeview dashboards). As versões anteriores dos painéis, anteriormente chamadas de Databricks SQL dashboards, agora são chamadas de legacy dashboards . A Databricks não recomenda a criação de novos painéis legados.

Cronograma de fim do suporte :

  • 7 de abril de 2025 : o suporte oficial para a versão antiga dos painéis será encerrado. Somente problemas críticos de segurança e interrupções de serviço serão abordados.

  • 3 de novembro de 2025 : A Databricks começará a arquivar painéis legados que não foram acessados nos últimos seis meses. Os painéis arquivados não estarão mais acessíveis e o processo de arquivamento ocorrerá de forma contínua. O acesso aos painéis usados ativamente permanecerá inalterado.

    A Databricks trabalhará com os clientes para desenvolver planos de migração para painéis legados ativos após 3 de novembro de 2025.

  • Converta painéis antigos usando a ferramenta de migração ou a API REST. Consulte Clonar um painel legado para AI/BI dashboard para obter instruções sobre como usar a ferramenta de migração integrada. Consulte o tutorial do Dashboard para obter um tutorial sobre a criação e o gerenciamento de dashboards usando o site REST API.