Conceitos do Databricks

Este artigo apresenta o conjunto de conceitos fundamentais que você precisa conhecer para usar o Databricks com eficácia.

Contas e workspaces

No Databricks, um workspace é uma implantação do Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários workspace ou apenas um, dependendo das suas necessidades.

Uma account Databricks representa uma única entidade para fins de faturação e suporte. account pode incluir vários workspace.

Faturamento: unidades Databricks (DBus)

Faturas do Databricks baseadas em unidades do Databricks (DBUs), unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a página de preçosDatabricks on Google Cloud .

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber quando gerencia identidades do Databricks e seu acesso aos ativos do Databricks.

Usuário

Um indivíduo que tem acesso ao sistema. As identidades dos usuários são representadas por endereços de e-mail. Consulte Gerenciar usuários.

Entidade de serviço

Uma identidade de serviço para uso com trabalhos, ferramentas automatizadas e sistemas como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representados por um ID de aplicativo. Consulte Gerenciar entidades de serviço.

Grupo

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a workspaces, dados e outros objetos que podem ser protegidos. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Gerenciar grupos

Lista de controle de acesso (ACL)

Uma lista de permissões anexadas a workspace, cluster, Job, tabela ou experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso

Token de acesso pessoal

Uma strings opaca é usada para autenticação na API REST e pelas ferramentas do parceiro tecnológico para conexão ao SQL warehouse. Consulte Autenticação access token pessoal do Databricks.

UI

A interface do usuário do Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.

Engenharia e ciência de dados

As ferramentas de ciência de dados e engenharia ajudam na colaboração entre cientistas de dados, engenheiros de dados e analistas de dados. Esta seção descreve os conceitos fundamentais.

Workspace

Um espaço de trabalho é um ambiente para acessar todos os seus ativos do Databricks. Um espaço de trabalho organiza objetos (Notebook, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Notebook

Uma interface baseada na web para criar fluxos de trabalho de ciência de dados e machine learning que podem conter comandos executáveis, visualizações e texto narrativo. Consulte Introdução aos blocos de anotações do Databricks.

Painel

Uma interface que fornece acesso organizado a visualizações. Consulte Painéis em blocos de anotações.

Biblioteca

Um pacote de código disponível para o notebook ou trabalho em execução em seu cluster. Os runtimes do Databricks contêm muitas bibliotecas e você pode adicionar suas próprias.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo é convertido em conjunto, sincronizando-o com um repositório Git remoto. As pastas Git da Databricks se integram ao Git para fornecer controle de origem e de versão para seus projetos.

Experimento

Uma coleção de execuções do MLflow para treinar um modelo de machine learning. Consulte Organizar execuções de treinamento com experimentos do MLflow.

Interfaces do Databricks

Esta seção descreve as interfaces compatíveis com Databricks, além da interface do usuário, para acessar seus ativos: API e linha de comando (CLI).

API REST

O Databricks fornece documentação da API para o workspace e a conta.

CLI

Um projeto de código aberto hospedado no GitHub. A CLI é criada sobre a API REST do Databricks.

Gerenciamento de dados

Esta seção descreve os objetos que contêm os dados nos quais você executa análises e alimenta algoritmos de machine learning.

Sistema de arquivos do Databricks (DBFS)

Uma camada de abstração do sistema de arquivos sobre um armazenamento de blobs. Contém diretórios, que podem conter arquivos (arquivos de dados, biblioteca e imagens) e outros diretórios. O DBFS é preenchido automaticamente com algum dataset que você pode usar para aprender Databricks. Consulte O que é o sistema de arquivos Databricks (DBFS)?.

Banco de dados

Uma coleção de objetos de dados, como tabelas ou view e funções, que é organizada de forma que possa ser facilmente acessada, gerenciada e atualizada. Consulte O que é um banco de dados?

Tabela

Uma representação de dados estruturados. Você query tabelas com APIs Apache Spark SQL e Apache Spark. Consulte O que é uma tabela?

Tabela delta

Por padrão, todas as tabelas criadas no Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de software livre Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos em nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos em nuvem e registra os metadados da tabela no metastore em um catálogo e esquema.

Saiba mais sobre tecnologias com marca Delta.

Metastore

O componente que armazena toda a informação de estrutura das várias tabelas e partições no data warehouse incluindo informação de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e escrever dados, e os arquivos correspondentes onde os dados são armazenados. Consulte O que é um metastore?

Todas as implantações do Databricks contam com um Hive metastore central acessível por todos os clusters para manter os metadados da tabela. Você também tem a opção de usar um Hive metastore externo existente.

Visualização

Uma apresentação gráfica do resultado da execução de uma query. Consulte Visualizações de notebooks do Databricks.

Gerenciamento de computação

Esta seção descreve os conceitos que você precisa conhecer para executar cálculos no Databricks.

Cluster

Um conjunto de recursos de computação e configurações nos quais você executa Notebook e Job. Existem dois tipos de clusters: multiuso e Job. Consulte Computação.

  • Você cria um cluster para todos os fins usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster multifuncional. Vários usuários podem compartilhar esses clusters para fazer análises interativas colaborativas.

  • O agendador de tarefas do Databricks cria um cluster de tarefas quando você executa um trabalho em um novo cluster de tarefas e termina o cluster quando o job é concluído. Você não pode reiniciar um cluster de job.

Pool

Um conjunto de instâncias paradas e prontas para uso que reduzem o tempo de início e de dimensionamento automático dos clusters. Quando anexado a um pool, um cluster aloca seu driver e worker nós do pool. Consulte pool referência de configuração.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por outro cluster.

Databricks runtime

O conjunto de componentes principais que são executados nos clusters gerenciados pelo Databricks. Consulte Computação.* Databricks tem os seguintes tempos de execução:

  • O Databricks Runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise de big data.

  • O Databricks Runtime for Machine Learning é baseado no Databricks Runtime e fornece infraestrutura de aprendizado de máquina pré-construída que é integrada com todos os recursos do workspace do Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.

Fluxos de trabalho

Frameworks para desenvolver e executar pipelines de processamento de dados:

  • Trabalhos: Um mecanismo não interativo para executar um Notebook ou biblioteca imediatamente ou de forma programada.

  • Delta Live Tables: Uma estrutura para a criação de pipelines de processamento de dados confiáveis, passíveis de manutenção e teste.

Consulte Introdução aos fluxos de trabalho do Databricks.

Carga de trabalho

O Databricks identifica dois tipos de cargas de trabalho sujeitas a diferentes esquemas de preços: data engineering (trabalho) e análise de dados (para todos os fins).

  • Data engineering Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Databricks cria para cada carga de trabalho.

  • Análise de dados Uma carga de trabalho (interativa) é executada em um cluster todo-propósito. As cargas de trabalho interativas normalmente executam comandos em um notebook do Databricks. No entanto, a execução de um job em um clusters todo-propósito existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de impressão (REPL) de leitura para cada linguagem de programação compatível. As linguagens compatíveis são Python, R, Scala e SQL.

Machine learning

O Machine Learning no Databricks é um ambiente integrado de ponta a ponta que incorpora serviços gerenciados para rastreamento de experimentos, treinamento de modelos, desenvolvimento e gerenciamento de recursos e serviço de recursos e modelos.

Experimentos

A principal unidade de organização para acompanhar o desenvolvimento de modelos de machine learning. Consulte Organize treinos com experimentos MLflow. Os experimentos organizam, exibem e controlam o acesso a execuções individuais registradas do código de treinamento do modelo.

Feature Store

Um repositório centralizado de recursos. Consulte O que é um repositório de recursos? O Feature Store permite o compartilhamento e a descoberta de recursos em toda a sua organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos.

SQL

API REST do SQL

Uma interface que permite automatizar tarefas em objetos SQL. Consulte API SQL.

Painel

Uma apresentação de visualizações de dados e comentários. Consulte Painéis do Databricks SQL.

Consultas SQL

Esta seção descreve os conceitos que você precisa conhecer para executar consultas SQL no Databricks.

  • Consulta: uma declaração SQL válida.

  • SQL warehouse: Um recurso de computação no qual o senhor executa consultas SQL.

  • Histórico de consultas: Uma lista de consultas executadas e suas características de desempenho.