Glossário de terminologia técnica da Databricks
A
lista de controle de acesso (ACL)
Uma lista de permissões anexadas a workspace, cluster, Job, tabela ou experimento. O site ACL especifica quais usuários ou processos do sistema têm acesso aos objetos e quais operações são permitidas no ativo. Cada entrada em um site típico ACL especifica um assunto e uma operação. Consulte Listas de controle de acesso.
Transações ACID
Transações de banco de dados que são processadas de forma confiável. ACID significa atomicidade, consistência, isolamento e durabilidade. Consulte Práticas recomendadas para confiabilidade.
inteligência artificial (AI)
A capacidade de um computador de imitar o comportamento humano inteligente. Consulte AI e machine learning em Databricks.
detecção de anomalia
Técnicas e ferramentas usadas para identificar padrões incomuns que não estão em conformidade com o comportamento esperado no conjunto de dados. Databricks facilita a detecção de anomalias por meio de seus recursos machine learning e de processamento de dados.
Apache Spark
Um sistema de computação distribuído e de código aberto usado para cargas de trabalho de big data. Consulte Apache Spark no Databricks.
rede neural artificial (rede neurais artificiais (ANN))
Um sistema de computação modelado de acordo com as operações dos neurônios no cérebro humano.
ativo
Uma entidade em um Databricks workspace (por exemplo, um objeto ou um arquivo).
auditoria log
Um registro das atividades e ações do usuário no ambiente Databricks, crucial para segurança, compliance e monitoramento operacional. Consulte a referência Audit log .
Auto Loader
Um recurso de ingestão de dados que processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento cloud sem nenhuma configuração adicional. Consulte O que é o Auto Loader?
AutoML
Um recurso do Databricks que simplifica o processo de aplicação do machine learning ao seu conjunto de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para o senhor. Consulte O que é o Mosaic AutoML?
linhagem de dados automatizada
O processo de acompanhamento e visualização automática do fluxo de dados desde sua origem, passando por várias transformações até sua forma final, essencial para a depuração, compliance, e compreensão das dependências de dados. A Databricks facilita isso por meio de integrações com ferramentas de linhagem de dados.
escala automática, horizontal
Adição ou remoção do executor com base no número de tarefas que estão aguardando agendamento. Isso acontece dinamicamente durante uma única atualização.
escala automática, vertical
Aumentar ou diminuir o tamanho de uma máquina (driver ou executor) com base na pressão da memória (ou na falta dela). Isso acontece apenas no início de uma nova atualização.
Azure Databricks
Uma versão do Databricks otimizada para a plataforma Microsoft Azure cloud .
B
processamento de lotes
Um método de processamento de dados que permite que o senhor defina instruções explícitas para processar uma quantidade fixa de dados estáticos e imutáveis como uma única operação. A Databricks usa Spark SQL ou DataFrames. Consulte transmissão e ingestão incremental.
Business Intelligence (BI)
As estratégias e a tecnologia usadas pelas empresas para a análise de dados e o gerenciamento de informações comerciais.
C
Explorador de Catálogos
Um Databricks recurso que fornece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas, modelos, funções e outros AI ativos. O senhor pode usá-lo para encontrar objetos e proprietários de dados, entender os relacionamentos de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.
CICD ou CI/CD
As práticas combinadas de integração contínua (CI) e entrega contínua (CD). Consulte O que é CI/CD na Databricks?
limpeza de dados
Dados que passaram por um processo de Limpeza de dados, que é o processo de detecção e correção (ou remoção) de registros corrompidos ou imprecisos de um conjunto de registros, tabela ou banco de dados e refere-se à identificação de partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, à substituição, modificação ou exclusão dos dados sujos ou grosseiros.
fornecedor da plataforma cloud
Uma empresa que fornece uma plataforma de computação cloud. Por exemplo, Microsoft Azure, Amazon Web serviço (AWS) e Google cloud Platform (GCP).
Cluster
Um recurso nãoserverless compute usado em Notebook, Job e Delta Live Tables. O termo compute foi substituído por cluster em toda a interface do usuário Databricks, mas ainda é usado nos clusters API e nos metadados.
Compute
Refere-se a compute recurso, que são elementos de infraestrutura, seja hardware ou software, que permitem a resolução de problemas e a criação de soluções por meio do recebimento, análise e armazenamento de dados. Computar.
contínuo pipeline
Um pipeline que atualiza todas as tabelas continuamente, à medida que novos dados chegam à entrada, sem parar. Consulte Modo de pipeline acionado vs. contínuo.
D
gráfico acíclico direcionado (DAG)
Um método para representar as dependências entre as tarefas em um fluxo de trabalho ou pipeline. Em um modelo de processamento DAG, as tarefas são representadas como nós em um gráfico acíclico direcionado, em que as bordas representam as dependências entre as tarefas.
Catálogo de dados
Uma ferramenta de gerenciamento de metadados para gerenciar fontes de dados, fornecendo informações sobre a estrutura, o local e o uso dos dados. Databricks integra-se ao catálogo de dados externo para aprimorar o gerenciamento de metadados.
Governança de dados
A prática de gerenciar a disponibilidade, a integridade, a segurança e a usabilidade dos dados, envolvendo políticas, procedimentos e tecnologia para garantir a qualidade dos dados e compliance.
Ingestão de dados
O processo de importação, transferência, carregamento e processamento de dados de várias fontes no Databricks para armazenamento, análise e processamento.
data lake
Um grande repositório de armazenamento que mantém uma grande quantidade de dados brutos em seu formato nativo até que sejam necessários.
Data lakehouse
Um sistema de gerenciamento de dados que combina os benefícios do data lake e do data warehouse. O site data lakehouse oferece recursos de armazenamento e processamento escalonáveis para organizações modernas que desejam evitar sistemas isolados para o processamento de diferentes cargas de trabalho, como machine learning (ML) e Business Intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir o frescor dos dados. Consulte O que é um data lakehouse?
pipeline de dados
Uma série de estágios nos quais os dados são gerados, coletados, processados e movidos para um destino. Databricks facilita a criação e o gerenciamento de pipelines complexos de dados para processamento de lotes e dados em tempo real.
privacidade de dados
A prática de proteger dados pessoais contra acesso, uso, divulgação ou roubo não autorizados. Databricks enfatiza recursos robustos de privacidade e segurança de dados, incluindo criptografia de ponta a ponta, role-based access control, e compliance com os principais regulamentos de proteção de dados, para proteger informações confidenciais e garantir a governança de dados.
visualização de dados
Uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como a forma como estão formatados ou onde estão fisicamente localizados. Os Databricks podem servir como parte de uma camada de virtualização de dados, fornecendo acesso contínuo e análise de dados em fontes diferentes.
Data warehousing
Refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios comerciais. A arquitetura lakehouse e Databricks SQL trazem os recursos cloud data warehousing para seu lago de dados. Consulte O que é data warehousing na Databricks?
Databricks
Uma plataforma analítica unificada e aberta para criar, implantar, compartilhar e manter análises de dados de nível empresarial e AI soluções em escala. A Databricks Data Intelligence Platform integra-se ao cloud armazenamento e à segurança da sua , além de cloud account gerenciar e implantar a infraestrutura cloud da em seu nome. Consulte O que é Databricks?
Databricks AI/BI
Um produto de Business Intelligence para fornecer compreensão da semântica de seus dados, permitindo a análise de dados de autosserviço. AI/BI foi desenvolvido com base em um sistema composto AI que extrai percepções de todo o ciclo de vida de seus dados na plataforma Databricks, incluindo o pipeline ETL, a linhagem e outras consultas. Veja o que é Databricks AI/BI?
Databricks Pacotes ativos (DABs)
Uma ferramenta para facilitar a adoção das práticas recomendadas de software engenharia, incluindo controle de origem, revisão de código, testes e integração e entrega contínuas (CI/CD), para seus dados e projetos AI. Os pacotes possibilitam descrever o recurso Databricks, como Job, pipeline e Notebook, como arquivos de origem. Veja o que são Databricks ativo Bundles?
Databricks Assistant
Um programador de pares baseado em AIe um agente de suporte que o torna mais eficiente ao criar Notebook, consultas, painéis e arquivos. Ele pode ajudar você a responder perguntas rapidamente gerando, otimizando, completando, explicando e corrigindo códigos e consultas. Consulte O que é o Databricks Assistant?
CLI do Databricks
Uma interface de comando-line para o Databricks que permite aos usuários gerenciar e automatizar o espaço de trabalho do Databricks e implantar o Job, o Notebook e a biblioteca. Consulte O que é a CLI do Databricks?
Databricks Connect
Uma biblioteca cliente que permite que os desenvolvedores conectem suas ferramentas favoritas IDEs, Notebook e outras ferramentas com Databricks compute e executem o código Spark remotamente. Consulte O que é o Databricks Connect?
Databricks Marketplace
Um fórum aberto para troca de dados de produtos. Os provedores devem ter um Databricks account, mas os destinatários podem ser qualquer pessoa. O marketplace ativo inclui conjunto de dados, Databricks Notebook, Databricks soluções Accelerators e modelos machine learning (AI). são normalmente disponibilizados como catálogos de dados tabulares, embora também haja suporte para dados não tabulares, na forma de volumes Databricks. Consulte O que é o Databricks Marketplace?
Runtime do Databricks
Um tempo de execução otimizado para análise big data. Databricks também oferece o Databricks Runtime for Machine Learning, que é otimizado para cargas de trabalho do machine learning. Consulte Databricks Runtime e Databricks Runtime notas sobre as versões e a compatibilidade.
Databricks SQL (DBSQL)
A coleção de serviços que trazem data warehousing recursos e desempenho para o seu lago de dados existente. O Databricks SQL é compatível com formatos abertos e com o padrão ANSI SQL. Um editor na plataforma SQL e ferramentas de painel de controle permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. Consulte O que é data warehousing na Databricks?
DatabricksIQ
O mecanismo de inteligência de dados que alimenta a plataforma Databricks. É um sistema composto AI que combina o uso de modelos AI, sistemas de recuperação, classificação e personalização para entender a semântica dos dados e dos padrões de uso de sua organização. Consulte Recurso com base no DatabricksIQ.
DBUs
Uma Databricks Unit (DBU) é uma unidade normalizada de poder de processamento na Databricks plataforma lakehouse usada para fins de medição e preços. O número de DBUs que uma carga de trabalho consome é determinado pelas métricas de processamento, que podem incluir o compute recurso usado e a quantidade de dados processados. Consulte os conceitos do Databricks.
DataFrame
Uma estrutura de dados que organiza os dados em uma tabela bidimensional de linhas e colunas, muito parecida com uma planilha. Os DataFrames são uma das estruturas de dados mais comuns usadas na análise de dados moderna porque são uma forma flexível e intuitiva de armazenar e trabalhar com dados. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames .
dataset
Uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados em um dataset geralmente estão relacionados de alguma forma e são obtidos de uma única fonte ou destinados a um único projeto.
Delta Lake
Uma camada de armazenamento de código aberto que traz confiabilidade ao data lake. Delta Lake fornece transações ACID, manuseio de metadados escalável e unifica a transmissão e o processamento de dados de lotes. Consulte O que é o Delta Lake?
Delta Live Tables (DLT)
Uma estrutura declarativa para criar um pipeline de processamento de dados confiável, sustentável e testável. O senhor define as transformações a serem realizadas em seus dados e Delta Live Tables gerenciar tarefa orquestração, cluster gerenciamento, monitoramento, qualidade de dados e tratamento de erros. Veja o que é Delta Live Tables?
Delta Live Tables conjunto de dados
As tabelas de transmissão, a visualização materializada e a visualização são mantidas como resultados de consultas declarativas.
Delta Sharing
Permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, independentemente de esses usuários usarem Databricks ou não. Também disponível como um projeto de código aberto para compartilhamento tabular de uso de dados, o Databricks adiciona a capacidade de compartilhar dados não tabulares e não estruturados (volumes), modelos AI, visualização, dados filtrados e Notebook. Consulte O que é Delta Sharing?
Mesas Delta
O formato da tabela de dados default em Databricks e é um recurso da estrutura de dados do código aberto Delta Lake. Delta As tabelas são normalmente usadas para data lake, onde os dados são ingeridos por meio de transmissão ou em grandes lotes. Consulte O que são tabelas e visualizações?
E
ETL (extrair, transformar, carregar)
Uma abordagem moderna para a integração de dados que extrai dados de fontes, carrega-os no sistema de destino e, em seguida, transforma-os no sistema de destino. Veja como executar sua primeira carga de trabalho ETL em Databricks.
F
featureStore
Um repositório central para armazenar, gerenciar e servir recursos para o modelo do machine learning. Ver recurso engenharia e servir.
corrente
Um fluxo é uma borda em um pipeline DLT que lê dados, transforma-os e grava-os em um destino.
G
IA generativa
Um tipo de inteligência artificial focado na capacidade do computador de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos. Os aplicativos generativos da AI são criados com base em modelos generativos da AI: modelos de linguagem grandes (LLMs) e modelos básicos. Consulte AI e machine learning em Databricks.
J
job
A unidade principal para programar e orquestrar cargas de trabalho de produção no Databricks. Databricks Os trabalhos consistem em uma ou mais tarefas. Veja programar e orquestrar fluxo de trabalho.
L
Lakehouse Federation
A plataforma de federação de consultas para Databricks. O termo federação de consultas descreve um conjunto de recursos que permite que usuários e sistemas executem consultas em várias fontes de dados sem a necessidade de migrar todos os dados para um sistema unificado. A Databricks usa o Unity Catalog para gerenciar a federação de consultas. Veja o que é Lakehouse Federation?
modelo de linguagem grande (LLM)
Um modelo de processamento de linguagem natural (NLP) projetado para tarefas como resposta a perguntas abertas, bate-papo, resumo de conteúdo, execução de instruções quase arbitrárias, tradução e geração de conteúdo e código. Os LLMs são treinados a partir de conjuntos de dados maciços usando algoritmos machine learning avançados para aprender os padrões e as estruturas da linguagem humana. Consulte Modelos de linguagem grande (LLMs) no Databricks.
Biblioteca
Um pacote de código disponível para o Notebook ou Job em execução no seu cluster. Databricks incluem muitas bibliotecas, e o senhor também pode upload as suas próprias. Ver biblioteca.
M
arquitetura de medalhões
Um padrão de design de dados usado para organizar logicamente os dados em uma lakehouse, com o objetivo de melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que eles fluem por cada camada da arquitetura (de Bronze ⇒ Prata ⇒ ouro). O que é a arquitetura medallion lakehouse?
metastore
O componente que armazena todas as informações de estrutura das várias tabelas e partições no site data warehouse, incluindo informações de coluna e tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Veja Metastores.
MLflow
Uma plataforma de código aberto para gerenciar o ciclo de vida de ponta a ponta do machine learning, incluindo experimentação, reprodutibilidade e implantação. MLflow O Databricks é um serviço totalmente gerenciado com funcionalidade adicional para clientes corporativos, fornecendo uma implantação gerenciar escalável e segura do MLflow. Consulte o gerenciamento do ciclo de vida do ML usando o MLflow.
treinamento de modelos
O processo de treinamento machine learning e modelos de aprendizagem profunda em Databricks usando muitos códigos abertos populares de biblioteca. Veja os modelos ensinar AI e ML .
Mosaic AI
O recurso que fornece ferramentas unificadas para criar, implantar, avaliar e governar soluções AI e ML - desde a criação de modelos ML preditivos até os aplicativos GenAI mais recentes. Consulte AI e machine learning em Databricks.
N
notebook
Uma interface interativa da Web usada por data scientists e engenheiros para escrever e executar códigos em vários idiomas (por exemplo, Python, Scala, SQL) no mesmo documento. Consulte Introdução ao Databricks Notebook.
O
OAuth
OAuth é um padrão aberto para delegação de acesso, comumente usado como uma forma de os usuários da Internet concederem a sites ou aplicativos acesso a suas informações em outros sites, mas sem fornecer a eles as senhas. Consulte Autenticar o acesso a Databricks recurso.
P
Partner Connect
Um programa Databricks que fornece integrações mantidas pelo fornecedor de software independente para se conectar à maioria dos sistemas de dados corporativos. Consulte O que é o Databricks Partner Connect?
pessoal access token (PAT)
Uma sequência de caracteres usada para autenticar um usuário ao acessar um sistema de computador em vez de uma senha. Consulte Autenticar o acesso a Databricks recurso.
Photon
Um mecanismo de consulta vetorizado nativo de alto desempenho Databricksque executa suas cargas de trabalho SQL e chamadas DataFrame API mais rapidamente para reduzir o custo total por carga de trabalho. O Photon é compatível com as APIs do Apache Spark, portanto, funciona com seu código existente. Veja o que é Photon?.
pipeline
Um DAG de tabelas, visualizações, visualizações materializadas, fluxos e sumidouros que são atualizados de forma preguiçosa em uma ordem de dependência determinada pelo sistema.
S
schema (Unity Catalog)
O filho de um catálogo em Unity Catalog que pode conter tabelas, visualizações, volumes, modelos e funções. Um esquema é o segundo nível do espaço de nomes de três níveis do Unity Catalog (catalog.schema.table-etc). Consulte O que é o Unity Catalog?
Compute serverless
compute gerenciar por Databricks, o que reduz a sobrecarga de gerenciamento e fornece compute instantâneo para aumentar a produtividade do usuário. Consulte Conectar-se à computação sem servidor.
entidade de serviço
Uma identidade criada para uso com ferramentas automatizadas, trabalho em execução e aplicativos. O senhor pode restringir o acesso de uma entidade de serviço ao recurso usando permissões, da mesma forma que um usuário do Databricks. Ao contrário de um usuário da Databricks, uma entidade de serviço é uma identidade somente de API; ela não pode acessar diretamente a interface do usuário da Databricks ou a CLI da Databricks. Consulte gerenciar entidade de serviço.
sumidouro (tubulação)
Um sink é um destino para um fluxo que grava em um sistema externo (por exemplo, Kafka, Kinesis, Delta).
Armazém SQL
Um recurso compute que permite que o senhor consulte e explore dados em Databricks. Consulte Conectar-se a um site SQL warehouse.
processamento de transmissão
Um método de processamento de dados que permite que o senhor defina uma consulta em um dataset ilimitado e em crescimento contínuo e, em seguida, processe os dados em lotes pequenos e incrementais. Databricks O processamento da transmissão utiliza a transmissão estruturada. Consulte transmissão e ingestão incremental.
transmissão
Transmissão refere-se a qualquer conteúdo de mídia - ao vivo ou gravado - (ou seja, uma transmissão de dados) entregue a computadores e dispositivos móveis via Internet e reproduzido em tempo real. Veja os conceitos de transmissão estruturada.
transmissão analítica
O processo de análise de dados que são gerados continuamente por diferentes fontes. Databricks suporta transmissão analítica por meio de transmissão estruturada, permitindo o processamento e a análise de dados ao vivo para percepções em tempo real.
Transmissão estruturada
Um mecanismo de processamento de transmissão escalonável e tolerante a falhas, desenvolvido com base no mecanismo Spark SQL, que permite cálculos complexos como consultas de transmissão. Veja os conceitos de transmissão estruturada.
tabelas de streaming
Uma tabela gerenciar que tem uma escrita de transmissão para ela.
T
tabela
Uma tabela reside em um esquema e contém linhas de dados. Todas as tabelas criadas em Databricks usam Delta Lake por default. As tabelas apoiadas pelo Delta Lake também são chamadas de tabelas Delta. Consulte O que são tabelas e visualizações?
pipeline acionado
Um pipeline que ingere todos os dados que estavam disponíveis no início da atualização para cada tabela, executando na ordem de dependência e depois encerrando. Consulte Modo de pipeline acionado vs. contínuo.
U
Unity Catalog
Um recurso do Databricks que oferece controle de acesso centralizado, auditoria, linhagem e recursos de descobrimento de dados no espaço de trabalho do Databricks. Consulte O que é o Unity Catalog?
V
ver
Uma tabela virtual definida por uma consulta SQL. Ele não armazena dados por si só, mas fornece uma maneira de apresentar dados de uma ou mais tabelas, em um formato ou abstração específicos. Consulte O que é um view?
volumes (Unity Catalog)
Unity Catalog objetos que permitem a governança de conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos cloud. Os volumes fornecem recursos para acessar, armazenar, controlar e organizar arquivos. Consulte O que são volumes do Unity Catalog?
W
Fluxos de trabalho
O conjunto de ferramentas que permite ao senhor programar e orquestrar tarefas de processamento de dados em Databricks. O senhor usa o Databricks Workflows para configurar o Databricks Jobs. Veja programar e orquestrar fluxo de trabalho.
carga de trabalho
A quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (Job) e análise de dados (all-purpose). Consulte os conceitos do Databricks.
workspace
Um ambiente organizacional que permite aos usuários do Databricks desenvolver, navegar e compartilhar objetos como o Notebook, experimentos, consultas e painéis. Consulte Navegar no espaço de trabalho.