Conceitos do Databricks

Este artigo apresenta os conceitos fundamentais que o senhor precisa entender para usar o site Databricks de forma eficaz.

Contas e workspaces

No Databricks, um workspace é uma implantação do Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários workspace ou apenas um, dependendo das suas necessidades.

Uma account Databricks representa uma única entidade para fins de faturação e suporte. account pode incluir vários workspace.

Faturamento: unidades Databricks (DBus)

O Databricks fatura com base em unidades de Databricks (DBUs), que são unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a página de preçosDatabricks on Google Cloud .

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber quando gerencia identidades do Databricks e seu acesso aos ativos do Databricks.

Usuário

Um indivíduo que tem acesso ao sistema. As identidades dos usuários são representadas por endereços de e-mail. Consulte Gerenciar usuários.

Entidade de serviço

Uma identidade de serviço para uso com trabalhos, ferramentas automatizadas e sistemas como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representados por um ID de aplicativo. Consulte Gerenciar entidades de serviço.

Grupo

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a workspaces, dados e outros objetos que podem ser protegidos. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Gerenciar grupos.

Lista de controle de acesso (ACL)

Uma lista de permissões anexadas a workspace, cluster, Job, tabela ou experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.

Personal access token (PAT)

Um access token pessoal é uma cadeia de caracteres usada para autenticar REST API chamadas, conexões de parceiros tecnológicos e outras ferramentas. Consulte Databricks autenticação pessoal access token .

Interfaces do Databricks

Esta seção descreve as interfaces para acessar seu ativo em Databricks.

UI

A interface do usuário do Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.

API REST

O Databricks REST API fornece um ponto de extremidade para modificar ou solicitar informações sobre os objetos Databricks account e workspace. Consulte referência de conta e referência de espaço de trabalho.

API REST do SQL

O SQL REST API permite que o senhor automatize a tarefa em objetos SQL. Consulte API do SQL.

CLI

A CLI da Databricks está hospedada no GitHub. A CLI foi criada com base na API REST da Databricks.

Gerenciamento de dados

Esta seção descreve os objetos lógicos que armazenam os dados que são inseridos nos algoritmos do site machine learning e sobre os quais é feita a análise. Além disso, ele descreve a interface do usuário na plataforma para explorar e gerenciar objetos de dados.

Unity Catalog

Unity Catalog é uma solução de governança unificada para dados e IA ativa no site Databricks que oferece recursos centralizados de controle de acesso, auditoria, linhagem e descobrimento de dados no espaço de trabalho Databricks. Consulte O que é o Unity Catalog?

Raiz do DBFS

Importante

O armazenamento e o acesso a montagens de uso de dados DBFS root ou DBFS é um padrão obsoleto e não é recomendado por Databricks. Em vez disso, a Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados. Consulte O que é o Unity Catalog?

A raiz do DBFS é um local de armazenamento disponível para todos os usuários por padrão. Consulte O que é DBFS?

Explorador de catálogo

O Catalog Explorer permite explorar e gerenciar dados e IA ativo, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos registrados ML. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?

Banco de dados

Uma coleção de objetos de dados, como tabelas ou visualizações e funções, que é organizada de forma que possa ser facilmente acessada, gerenciada e atualizada. Consulte O que são esquemas em Databricks?

Tabela

Uma representação de dados estruturados. O senhor consulta tabelas com o Apache Spark SQL e as APIs do Apache Spark. Consulte O que são tabelas e visualizações?

Tabela delta

Por padrão, todas as tabelas criadas no Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de software livre Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos em nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos em nuvem e registra os metadados da tabela no metastore em um catálogo e esquema.

Saiba mais sobre tecnologias com marca Delta.

Metastore

O componente que armazena todas as informações de estrutura das várias tabelas e partições no site data warehouse, incluindo informações de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Consulte Metastores

Todas as implantações do Databricks contam com um Hive metastore central acessível por todos os clusters para manter os metadados da tabela. Você também tem a opção de usar um Hive metastore externo existente.

Gerenciamento de computação

Esta seção descreve os conceitos que você precisa conhecer para executar cálculos no Databricks.

Cluster

Um conjunto de recursos de computação e configurações nos quais você executa Notebook e Job. Existem dois tipos de clusters: multiuso e Job. Consulte Computação.

  • Você cria um cluster para todos os fins usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster multifuncional. Vários usuários podem compartilhar esses clusters para fazer análises interativas colaborativas.

  • O programador de trabalho Databricks cria um trabalho cluster quando o senhor executa um trabalho em um novo trabalho cluster e o encerra cluster quando o trabalho é concluído. O senhor não pode reiniciar um trabalho cluster.

Pool

Um conjunto de instâncias paradas e prontas para uso que reduzem o tempo de início e de dimensionamento automático dos clusters. Quando anexado a um pool, um cluster aloca seu driver e worker nós do pool. Consulte pool referência de configuração.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por outro cluster.

Databricks runtime

O conjunto de componentes principais que o senhor executa no clusters gerenciar por Databricks. Consulte Computação. O Databricks tem os seguintes tempos de execução:

  • O Databricks Runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise de big data.

  • O Databricks Runtime for Machine Learning é baseado no Databricks Runtime e fornece infraestrutura de aprendizado de máquina pré-construída que é integrada com todos os recursos do workspace do Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.

Fluxos de trabalho

A UI do fluxo de trabalho workspace fornece acesso às UIs do pipeline de Jobs e DLT, que são ferramentas que permitem orquestrar e programar o fluxo de trabalho.

Jobs

Um mecanismo não interativo para orquestrar e programar o Notebook, a biblioteca e outras tarefas. Ver programar e orquestrar fluxo de trabalho

tubulação

Delta Live Tables fornecem uma estrutura declarativa para a criação de um pipeline de processamento de dados confiável, sustentável e testável. Veja o que é Delta Live Tables?

Carga de trabalho

Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose).

  • Data engineering Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Databricks cria para cada carga de trabalho.

  • Análise de dados Uma carga de trabalho (interativa) é executada em um cluster todo-propósito. As cargas de trabalho interativas normalmente executam comandos em um notebook do Databricks. No entanto, a execução de um job em um clusters todo-propósito existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de impressão (REPL) de leitura para cada linguagem de programação compatível. As linguagens compatíveis são Python, R, Scala e SQL.

Engenharia de dados

As ferramentas de engenharia de dados ajudam a colaboração entre data scientists, engenheiros de dados, analistas de dados e engenheiros de machine learning.

Workspace

Um espaço de trabalho é um ambiente para acessar todos os seus ativos do Databricks. Um espaço de trabalho organiza objetos (Notebook, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Notebook

Uma interface baseada na web para criar fluxos de trabalho de ciência de dados e machine learning que podem conter comandos executáveis, visualizações e texto narrativo. Consulte Introdução aos blocos de anotações do Databricks.

Biblioteca

Um pacote de código disponível para o Notebook ou Job em execução no seu cluster. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver biblioteca.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo é convertido em conjunto, sincronizando-o com um repositório Git remoto. As pastas Git da Databricks se integram ao Git para fornecer controle de origem e de versão para seus projetos.

IA e machine learning

Databricks fornece um ambiente integrado de ponta a ponta com serviço gerenciado para desenvolvimento e implantação de aplicativos IA e machine learning.

Mosaic AI

O nome da marca do produto e serviço da Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsável pelos maiores avanços da Databricks em IA generativa. Mosaic AI Os produtos incluem o recurso ML e IA em Databricks. Consulte a Mosaic Research.

Tempo de execução de aprendizado de máquina

Para ajudá-lo a desenvolver modelos de ML e IA, Databricks fornece um Databricks Runtime para Machine Learning, que automatiza a criação de compute com infraestrutura pré-construída machine learning e aprendizagem profunda, incluindo a biblioteca mais comum ML e DL. Ele também tem suporte integrado e pré-configurado para GPU, incluindo drivers e biblioteca de suporte. Navegue até as informações sobre os últimos lançamentos de tempo de execução em Databricks Runtime notas sobre versões e compatibilidade.

Experimento

Uma coleção de execuções do MLflow para treinar um modelo de machine learning. Consulte Organizar execuções de treinamento com experimentos do MLflow.

recurso

Os recursos são um componente importante dos modelos do site ML. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos. Ver recurso engenharia e servir.

GenAI, modelos básicos e modelos de linguagem de grande porte

Databricks Runtime for Machine Learning inclui bibliotecas como Hugging Face Transformers e LangChain, que permitem que o senhor integre modelos pré-treinados ou bibliotecas de código aberto ao seu fluxo de trabalho. O senhor pode fazer o ajuste fino dos LLMs usando seus próprios dados para otimizar o desempenho do seu aplicativo.

Registro de modelo

A Databricks fornece uma versão hospedada do MLflow Model Registry no Unity Catalog. Os modelos registrados em Unity Catalog herdam controle de acesso centralizado, linhagem e descoberta e acesso entreworkspace. Veja como gerenciar o ciclo de vida do modelo em Unity Catalog.

data warehousing

data warehousing refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios comerciais. Databricks SQL é o conjunto de serviços que traz data warehousing recursos e desempenho para o seu lago de dados existente. Consulte O que é data warehousing na Databricks?

Consulta

Uma consulta é uma instrução SQL válida que permite que o senhor interaja com seus dados. O senhor pode criar consultas usando o editor SQL na plataforma ou conectar-se usando um conector, driver ou API SQL. Consulte Acessar e gerenciar consultas salvas para saber mais sobre como trabalhar com consultas.

SQL warehouse

Um recurso de computação no qual o senhor executa SQL consultas. Existem três tipos de armazém SQL: Classic, Pro e serverless. Databricks recomenda o uso do site serverless warehouses quando disponível. Consulte SQL warehouse types para comparar os recursos disponíveis para cada tipo de depósito.

Histórico de consultas

Uma lista de consultas executadas e suas características de desempenho. A história da consulta permite que o senhor monitore o desempenho da consulta, ajudando-o a identificar gargalos e otimizar os tempos de execução da consulta. Consulte Histórico de consultas.

Visualização

Uma apresentação gráfica do resultado da execução de uma query. Consulte Visualizações de notebooks do Databricks.

Painel

Uma apresentação de visualizações e comentários de dados. O senhor pode usar painéis para enviar relatórios automaticamente para qualquer pessoa em seu site Databricks account. Use o Databricks Assistant para ajudá-lo a criar visualizações com base em prompts de linguagem natural. Consulte Painéis. O senhor também pode criar um painel a partir de um Notebook. Consulte Dashboards no Notebook.

Para painéis legados, consulte Painéis legados.

Importante

  • Databricks recomenda o uso do AI/BI dashboards (anteriormente Lakeview dashboards).

  • Os painéis originais do site Databricks SQL agora são chamados de painéis legados. Eles continuarão a receber correções críticas de bugs, mas não serão atualizados com novos recursos. Os painéis antigos chegarão ao fim da vida útil antes do final de 2025. A Databricks não recomenda a criação de novos painéis legados.