Glossário de terminologia técnica da Databricks

A

lista de controle de acesso (ACL)

Uma lista de permissões anexadas a workspace, cluster, Job, tabela ou experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos e quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.

Modo de acesso

Um recurso de segurança que determina quem pode usar um recurso compute e os dados que podem ser acessados durante o uso do recurso compute. Cada recurso do site compute em Databricks tem um modo de acesso. Consulte Modos de acesso.

Transações ACID

Transações de banco de dados que são processadas de forma confiável. ACID significa atomicidade, consistência, isolamento e durabilidade. Consulte Práticas recomendadas para confiabilidade.

inteligência artificial (AI)

A capacidade de um computador de imitar o comportamento humano inteligente. Consulte AI e machine learning em Databricks.

Playground de IA

Um recurso Databricks onde os usuários podem interagir, testar e comparar modelos generativos AI servidos em seu Databricks workspace. Veja Chat com LLMs e protótipos de aplicativos GenAI usando o AI Playground.

detecção de anomalia

Técnicas e ferramentas usadas para identificar padrões incomuns que não estão em conformidade com o comportamento esperado no conjunto de dados. Databricks facilita a detecção de anomalias por meio de seus recursos machine learning e de processamento de dados.

Apache Spark

Um sistema de computação distribuído e de código aberto usado para cargas de trabalho de big data. Consulte Apache Spark no Databricks.

rede neural artificial (rede neurais artificiais (ANN))

Um sistema de computação modelado de acordo com as operações dos neurônios no cérebro humano.

ativo

Uma entidade em um Databricks workspace (por exemplo, um objeto ou um arquivo).

auditoria log

Um registro das atividades e ações do usuário no ambiente Databricks, crucial para segurança, compliance e monitoramento operacional. Consulte a referência Audit log .

Auto Loader

Um recurso de ingestão de dados que processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento cloud sem nenhuma configuração adicional. Consulte O que é o Auto Loader?

AutoML

Um recurso Databricks que simplifica o processo de aplicação do machine learning ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para o senhor. Consulte O que é AutoML?

linhagem de dados automatizada

O processo de acompanhamento e visualização automática do fluxo de dados desde sua origem, passando por várias transformações até sua forma final, essencial para a depuração, compliance, e compreensão das dependências de dados. A Databricks facilita isso por meio de integrações com ferramentas de linhagem de dados.

escala automática, horizontal

Adição ou remoção do executor com base no número de tarefas que estão aguardando agendamento. Isso acontece dinamicamente durante uma única atualização.

escala automática, vertical

Aumentar ou diminuir o tamanho de uma máquina (driver ou executor) com base na pressão da memória (ou na falta dela). Isso acontece apenas no início de uma nova atualização.

Azure Databricks

Uma versão do Databricks otimizada para a plataforma Microsoft Azure cloud .

B

processamento de lotes

Um método de processamento de dados que permite que o senhor defina instruções explícitas para processar uma quantidade fixa de dados estáticos e imutáveis como uma única operação. A Databricks usa Spark SQL ou DataFrames. Consulte transmissão e ingestão incremental.

detecção e mitigação de viés

O processo de identificação e tratamento de vieses em dados e modelos de aprendizado de máquina para garantir imparcialidade e precisão. A Databricks oferece ferramentas e integrações para ajudar a detectar e atenuar o viés. Consulte Monitorar imparcialidade e preconceito para modelos de classificação.

Business Intelligence (BI)

As estratégias e a tecnologia usadas pelas empresas para a análise de dados e o gerenciamento de informações comerciais.

C

Explorador de Catálogos

Um Databricks recurso que fornece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas, modelos, funções e outros AI ativos. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.

CICD ou CI/CD

As práticas combinadas de integração contínua (CI) e entrega contínua (CD). Consulte O que é CI/CD na Databricks?

limpeza de dados

Dados que passaram por um processo de Limpeza de dados, que é o processo de detecção e correção (ou remoção) de registros corrompidos ou imprecisos de um conjunto de registros, tabela ou banco de dados e refere-se à identificação de partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, à substituição, modificação ou exclusão dos dados sujos ou grosseiros.

fornecedor da plataforma cloud

Uma empresa que fornece uma plataforma de computação cloud. Por exemplo, Microsoft Azure, Amazon Web serviço (AWS) e Google cloud Platform (GCP).

Cluster

Um recurso nãoserverless compute usado em Notebook, Job e Delta Live Tables. O termo compute foi substituído por cluster em toda a interface do usuário Databricks, mas ainda é usado nos clusters API e nos metadados.

Compute

Refere-se a compute recurso, que são elementos de infraestrutura, seja hardware ou software, que permitem a resolução de problemas e a criação de soluções por meio do recebimento, análise e armazenamento de dados. Computar.

contínuo pipeline

Um pipeline que atualiza todas as tabelas continuamente, à medida que novos dados chegam à entrada, sem parar. Consulte Modo de pipeline acionado vs. contínuo.

D

gráfico acíclico direcionado (DAG)

Um método para representar as dependências entre as tarefas em um fluxo de trabalho ou pipeline. Em um modelo de processamento DAG, as tarefas são representadas como nós em um gráfico acíclico direcionado, em que as bordas representam as dependências entre as tarefas.

Catálogo de dados

Uma ferramenta de gerenciamento de metadados para gerenciar fontes de dados, fornecendo informações sobre a estrutura, o local e o uso dos dados. Databricks integra-se ao catálogo de dados externo para aprimorar o gerenciamento de metadados.

Governança de dados

A prática de gerenciar a disponibilidade, a integridade, a segurança e a usabilidade dos dados, envolvendo políticas, procedimentos e tecnologia para garantir a qualidade dos dados e compliance.

Ingestão de dados

O processo de importação, transferência, carregamento e processamento de dados de várias fontes no Databricks para armazenamento, análise e processamento.

data lake

Um grande repositório de armazenamento que mantém uma grande quantidade de dados brutos em seu formato nativo até que sejam necessários.

Data lakehouse

Um sistema de gerenciamento de dados que combina os benefícios do data lake e do data warehouse. O site data lakehouse oferece recursos de armazenamento e processamento escalonáveis para organizações modernas que desejam evitar sistemas isolados para o processamento de diferentes cargas de trabalho, como machine learning (ML) e Business Intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir o frescor dos dados. Consulte O que é um data lakehouse?

pipeline de dados

Uma série de estágios nos quais os dados são gerados, coletados, processados e movidos para um destino. Databricks facilita a criação e o gerenciamento de pipelines complexos de dados para processamento de lotes e dados em tempo real.

privacidade de dados

A prática de proteger dados pessoais contra acesso, uso, divulgação ou roubo não autorizados. Databricks enfatiza recursos robustos de privacidade e segurança de dados, incluindo criptografia de ponta a ponta, role-based access control, e compliance com os principais regulamentos de proteção de dados, para proteger informações confidenciais e garantir a governança de dados.

visualização de dados

Uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como a forma como estão formatados ou onde estão fisicamente localizados. Os Databricks podem servir como parte de uma camada de virtualização de dados, fornecendo acesso contínuo e análise de dados em fontes diferentes.

Data warehousing

Refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios comerciais. A arquitetura lakehouse e Databricks SQL trazem os recursos cloud data warehousing para seu lago de dados. Consulte O que é data warehousing na Databricks?

Databricks

Uma plataforma analítica unificada e aberta para criar, implantar, compartilhar e manter análises de dados de nível empresarial e AI soluções em escala. A Databricks Data Intelligence Platform integra-se ao cloud armazenamento e à segurança da sua , além de cloud account gerenciar e implantar a infraestrutura cloud da em seu nome. Consulte O que é Databricks?

Databricks AI/BI

Um produto de Business Intelligence para fornecer compreensão da semântica de seus dados, permitindo a análise de dados de autosserviço. AI/BI foi desenvolvido com base em um sistema composto AI que extrai percepções de todo o ciclo de vida de seus dados na plataforma Databricks, incluindo o pipeline ETL, a linhagem e outras consultas. Veja o que é Databricks AI/BI?

Databricks Pacotes ativos (DABs)

Uma ferramenta para facilitar a adoção das práticas recomendadas de software engenharia, incluindo controle de origem, revisão de código, testes e integração e entrega contínuas (CI/CD), para seus dados e projetos AI. Os pacotes possibilitam descrever o recurso Databricks, como Job, pipeline e Notebook, como arquivos de origem. Veja o que são Databricks ativo Bundles?

Databricks Assistant

Um programador de pares baseado em AIe um agente de suporte que o torna mais eficiente ao criar Notebook, consultas, painéis e arquivos. Ele pode ajudar você a responder perguntas rapidamente gerando, otimizando, completando, explicando e corrigindo códigos e consultas. Consulte O que é o Databricks Assistant?

CLI do Databricks

Uma interface de comando-line para o Databricks que permite aos usuários gerenciar e automatizar o espaço de trabalho do Databricks e implantar o Job, o Notebook e a biblioteca. Consulte O que é a CLI do Databricks?

Databricks Connect

Uma biblioteca cliente que permite que os desenvolvedores conectem suas ferramentas favoritas IDEs, Notebook e outras ferramentas com Databricks compute e executem o código Spark remotamente. Consulte O que é o Databricks Connect?

Databricks Marketplace

Um fórum aberto para troca de dados de produtos. Os provedores devem ter um Databricks account, mas os destinatários podem ser qualquer pessoa. O marketplace ativo inclui conjunto de dados, Databricks Notebook, Databricks soluções Accelerators e modelos machine learning (AI). são normalmente disponibilizados como catálogos de dados tabulares, embora também haja suporte para dados não tabulares, na forma de volumes Databricks. Consulte O que é o Databricks Marketplace?

Runtime do Databricks

Um tempo de execução otimizado para análise big data. Databricks também oferece o Databricks Runtime for Machine Learning, que é otimizado para cargas de trabalho do machine learning. Consulte Databricks Runtime e Databricks Runtime notas sobre as versões e a compatibilidade.

Databricks SQL (DBSQL)

A coleção de serviços que trazem data warehousing recursos e desempenho para o seu lago de dados existente. O Databricks SQL é compatível com formatos abertos e com o padrão ANSI SQL. Um editor na plataforma SQL e ferramentas de painel de controle permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. Consulte O que é data warehousing na Databricks?

DatabricksIQ

O mecanismo de inteligência de dados que alimenta a plataforma Databricks. É um sistema composto AI que combina o uso de modelos AI, sistemas de recuperação, classificação e personalização para entender a semântica dos dados e dos padrões de uso de sua organização. Consulte Recurso com base no DatabricksIQ.

DBUs

Uma Databricks Unit (DBU) é uma unidade normalizada de poder de processamento na Databricks plataforma lakehouse usada para fins de medição e preços. O número de DBUs que uma carga de trabalho consome é determinado pelas métricas de processamento, que podem incluir o compute recurso usado e a quantidade de dados processados. Consulte os conceitos do Databricks.

DataFrame

Uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, muito parecida com uma planilha. Os DataFrames são uma das estruturas de dados mais comuns usadas na análise de dados moderna porque são uma forma flexível e intuitiva de armazenar e trabalhar com dados. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames .

dataset

Uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados em um dataset geralmente estão relacionados de alguma forma e são obtidos de uma única fonte ou destinados a um único projeto.

Delta Lake

Uma camada de armazenamento de código aberto que traz confiabilidade ao data lake. Delta Lake fornece transações ACID, manuseio de metadados escalável e unifica a transmissão e o processamento de dados de lotes. Consulte O que é o Delta Lake?

Delta Live Tables (DLT)

Uma estrutura declarativa para criar um pipeline de processamento de dados confiável, sustentável e testável. O senhor define as transformações a serem realizadas em seus dados e Delta Live Tables gerenciar tarefa orquestração, cluster gerenciamento, monitoramento, qualidade de dados e tratamento de erros. Veja o que é Delta Live Tables?

Delta Live Tables conjunto de dados

As tabelas de transmissão, a visualização materializada e a visualização são mantidas como resultados de consultas declarativas.

Delta Sharing

Permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, independentemente de esses usuários usarem Databricks ou não. Também disponível como um projeto de código aberto para compartilhamento tabular de uso de dados, o Databricks adiciona a capacidade de compartilhar dados não tabulares e não estruturados (volumes), modelos AI, visualização, dados filtrados e Notebook. Consulte O que é Delta Sharing?

Mesas Delta

O formato da tabela de dados default em Databricks e é um recurso da estrutura de dados do código aberto Delta Lake. Delta As tabelas são normalmente usadas para data lake, onde os dados são ingeridos por meio de transmissão ou em grandes lotes. Consulte O que são tabelas e visualizações?

E

ETL (extrair, transformar, carregar)

Uma abordagem moderna para a integração de dados que extrai dados de fontes, carrega-os no sistema de destino e, em seguida, transforma-os no sistema de destino. Veja como executar sua primeira carga de trabalho ETL em Databricks.

F

featureStore

Um repositório central para armazenar, gerenciar e servir recursos para o modelo do machine learning. Ver recurso engenharia e servir.

corrente

Um fluxo é uma borda em um pipeline DLT que lê dados, transforma-os e grava-os em um destino.

G

IA generativa

Um tipo de inteligência artificial focado na capacidade do computador de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos. Os aplicativos generativos da AI são criados com base em modelos generativos da AI: modelos de linguagem grandes (LLMs) e modelos básicos. Consulte AI e machine learning em Databricks.

J

job

A unidade principal para programar e orquestrar cargas de trabalho de produção no Databricks. Databricks Os trabalhos consistem em uma ou mais tarefas. Consulte Visão geral da orquestração no Databricks.

L

Lakehouse Federation

A plataforma de federação de consultas para Databricks. O termo federação de consultas descreve um conjunto de recursos que permite que usuários e sistemas executem consultas em várias fontes de dados sem a necessidade de migrar todos os dados para um sistema unificado. A Databricks usa o Unity Catalog para gerenciar a federação de consultas. Veja o que é Lakehouse Federation?

Monitoramento do lakehouse

Monitora as propriedades estatísticas e a qualidade dos dados em todas as tabelas do site account. O senhor também pode usá-lo para acompanhar o desempenho do modelo do machine learning e do endpoint do modelo servindo por meio do monitoramento de tabelas de inferência que contêm entradas e previsões do modelo. Consulte Introdução ao monitoramento da Databricks Lakehouse.

modelo de linguagem grande (LLM)

Um modelo de processamento de linguagem natural (NLP) projetado para tarefas como resposta a perguntas abertas, bate-papo, resumo de conteúdo, execução de instruções quase arbitrárias, tradução e geração de conteúdo e código. Os LLMs são treinados a partir de conjuntos de dados maciços usando algoritmos machine learning avançados para aprender os padrões e as estruturas da linguagem humana. Consulte Modelos de linguagem grande (LLMs) no Databricks.

Biblioteca

Um pacote de código disponível para o Notebook ou Job em execução no seu cluster. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver biblioteca.

M

arquitetura de medalhões

Um padrão de design de dados usado para organizar logicamente os dados em uma lakehouse, com o objetivo de melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada camada da arquitetura (de Bronze ⇒ Prata ⇒ ouro). O que é a arquitetura medallion lakehouse?

metastore

O componente que armazena todas as informações de estrutura das várias tabelas e partições no site data warehouse, incluindo informações de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Veja Metastores.

MLflow

Uma plataforma de código aberto para gerenciar o ciclo de vida do aprendizado de máquina de ponta a ponta, incluindo experimentação, reprodutibilidade e implementação. MLflow O Databricks é um serviço totalmente gerenciado com funcionalidade adicional para clientes corporativos, fornecendo uma implantação gerenciar escalável e segura do MLflow. Consulte MLflow para obter informações sobre o ciclo de vida do agente AI e do modelo ML .

treinamento de modelos

O processo de treinamento machine learning e modelos de aprendizagem profunda em Databricks usando muitos códigos abertos populares de biblioteca. Veja os modelos ensinar AI e ML .

Mosaic AI

O recurso que fornece ferramentas unificadas para criar, implantar, avaliar e governar soluções AI e ML - desde a criação de modelos ML preditivos até os aplicativos GenAI mais recentes. Consulte AI e machine learning em Databricks.

Mosaic AI Model Serving

A interface unificada para implantar, administrar e consultar modelos AI para inferência de tempo real e lotes. Veja os modelos implantados usando Mosaic AI Model Serving o site.

Mosaic AI Vector Search

Um banco de dados vetorial incorporado à Databricks Data Intelligence Platform e integrado às suas ferramentas de governança e produtividade. Consulte Mosaic AI Vector Search.

N

notebook

Uma interface interativa da Web usada por data scientists e engenheiros para escrever e executar códigos em vários idiomas (por exemplo, Python, Scala, SQL) no mesmo documento. Consulte Introdução ao Databricks Notebook.

O

OAuth

OAuth é um padrão aberto para delegação de acesso, comumente usado como uma forma de os usuários da Internet concederem a sites ou aplicativos acesso a suas informações em outros sites, mas sem fornecer a eles as senhas. Consulte Autorização de acesso a Databricks recurso.

P

Partner Connect

Um programa Databricks que fornece integrações mantidas pelo fornecedor de software independente para se conectar à maioria dos sistemas de dados corporativos. Consulte O que é o Databricks Partner Connect?

pessoal access token (PAT)

Uma sequência de caracteres usada para autenticar um usuário ao acessar um sistema de computador em vez de uma senha. Consulte Autorização de acesso a Databricks recurso.

Photon

Um mecanismo de consulta vetorizado nativo de alto desempenho Databricksque executa suas cargas de trabalho SQL e chamadas DataFrame API mais rapidamente para reduzir o custo total por carga de trabalho. O Photon é compatível com as APIs do Apache Spark, portanto, funciona com seu código existente. Veja o que é Photon?.

pipeline

Um DAG de tabelas, visualizações, visualizações materializadas, fluxos e sumidouros que são atualizados de forma preguiçosa em uma ordem de dependência determinada pelo sistema.

R

S

schema (Unity Catalog)

O filho de um catálogo em Unity Catalog que pode conter tabelas, visualizações, volumes, modelos e funções. Um esquema é o segundo nível do espaço de nomes de três níveis do Unity Catalog (catalog.schema.table-etc). Consulte O que é o Unity Catalog?

Compute serverless

compute gerenciar por Databricks, o que reduz a sobrecarga de gerenciamento e fornece compute instantâneo para aumentar a produtividade do usuário. Consulte Conectar-se à computação sem servidor.

entidade de serviço

Uma identidade criada para uso com ferramentas automatizadas, trabalho em execução e aplicativos. O senhor pode restringir o acesso de uma entidade de serviço ao recurso usando permissões, da mesma forma que um usuário do Databricks. Ao contrário de um usuário da Databricks, uma entidade de serviço é uma identidade somente de API; ela não pode acessar diretamente a interface do usuário da Databricks ou a CLI da Databricks. Consulte gerenciar entidade de serviço.

sumidouro (tubulação)

Um sink é um destino para um fluxo que grava em um sistema externo (por exemplo, Kafka, Kinesis, Delta).

Armazém SQL

Um recurso compute que permite que o senhor consulte e explore dados em Databricks. Consulte Conectar-se a um site SQL warehouse.

processamento de transmissão

Um método de processamento de dados que permite que o senhor defina uma consulta em um dataset ilimitado e em crescimento contínuo e, em seguida, processe os dados em lotes pequenos e incrementais. Databricks O processamento da transmissão utiliza a transmissão estruturada. Consulte transmissão e ingestão incremental.

transmissão

Transmissão refere-se a qualquer conteúdo de mídia - ao vivo ou gravado - (ou seja, uma transmissão de dados) entregue a computadores e dispositivos móveis via Internet e reproduzido em tempo real. Veja os conceitos de transmissão estruturada.

transmissão analítica

O processo de análise de dados que são gerados continuamente por diferentes fontes. Databricks suporta transmissão analítica por meio de transmissão estruturada, permitindo o processamento e a análise de dados ao vivo para percepções em tempo real.

Transmissão estruturada

Um mecanismo de processamento de transmissão escalonável e tolerante a falhas, desenvolvido com base no mecanismo Spark SQL, que permite cálculos complexos como consultas de transmissão. Veja os conceitos de transmissão estruturada.

tabelas de streaming

Uma tabela gerenciar que tem uma escrita de transmissão para ela.

T

tabela

Uma tabela reside em um esquema e contém linhas de dados. Todas as tabelas criadas em Databricks usam Delta Lake por default. As tabelas apoiadas pelo Delta Lake também são chamadas de tabelas Delta. Consulte O que são tabelas e visualizações?

pipeline acionado

Um pipeline que ingere todos os dados que estavam disponíveis no início da atualização para cada tabela, executando na ordem de dependência e depois encerrando. Consulte Modo de pipeline acionado vs. contínuo.

U

Unity Catalog

Um recurso do Databricks que oferece controle de acesso centralizado, auditoria, linhagem e recursos de descobrimento de dados no espaço de trabalho do Databricks. Consulte O que é o Unity Catalog?

V

ver

Uma tabela virtual definida por uma consulta SQL. Ele não armazena dados por si só, mas fornece uma maneira de apresentar dados de uma ou mais tabelas, em um formato ou abstração específicos. Consulte O que é um view?

volumes (Unity Catalog)

Unity Catalog objetos que permitem a governança de conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos cloud. Os volumes fornecem recursos para acessar, armazenar, controlar e organizar arquivos. Consulte O que são volumes do Unity Catalog?

W

Fluxos de trabalho

O conjunto de ferramentas que permite ao senhor programar e orquestrar tarefas de processamento de dados em Databricks. O senhor usa o Databricks Workflows para configurar os Databricks Jobs. Consulte Visão geral da orquestração no Databricks.

carga de trabalho

A quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose). Consulte os conceitos do Databricks.

workspace

Um ambiente organizacional que permite aos usuários do Databricks desenvolver, navegar e compartilhar objetos como o Notebook, experimentos, consultas e painéis. Consulte Navegar no espaço de trabalho.