Baixe as arquiteturas de referência da Lakehouse

Este artigo aborda a orientação arquitetônica para a lakehouse em termos de fonte de dados, ingestão, transformação, consulta e processamento, fornecimento, análise/saída e armazenamento.

Cada arquitetura de referência tem um PDF para download em formato 11 x 17 (A3).

Organização das arquiteturas de referência

A arquitetura de referência é estruturada ao longo das pistas de natação Source, Ingest, Transform, Query and Process, Serve, Analysis e Storage:

Capacidades para suas cargas de trabalho

Além disso, o Databricks lakehouse vem com recursos de gerenciamento compatíveis com todas as cargas de trabalho:

  • Governança de dados e IA

    O sistema central de governança de dados e IA na Plataforma de Inteligência de Dados Databricks é o Unity Catalog. O Unity Catalog apresenta um local único para gerenciar políticas de acesso a dados que se aplicam a todos os espaços de trabalho e suporta todos os ativos criados ou utilizados na lakehouse, como tabelas, volumes, recursos (armazenamento de recursos ) e modelos (registro de modelos). O Unity Catalog também pode ser usado para capturar a linhagem de dados em tempo de execução em consultas executadas no Databricks.

    Para fins de observabilidade, as tabelas do sistema são um armazenamento analítico hospedado pelo Databricks dos dados operacionais da sua conta. As tabelas do sistema podem ser usadas para observabilidade histórica em sua conta.

  • Mecanismo de inteligência de dados

    A Databricks Data Intelligence Platform possibilita que toda a sua organização utilize dados e IA. É alimentada pelo DatabricksIQ e combina IA generativa com os benefícios de unificação de um lakehouse para entender a semântica exclusiva dos seus dados.

    O Databricks Assistant está disponível nos Notebooks, no editor SQL e no editor de arquivos do Databricks como um assistente de IA sensível ao contexto para desenvolvedores.

  • Orquestração

    O Databricks Workflows comanda o processamento de dados, o machine learning e os pipelines de analítica na Databricks Data Intelligence Platform. Os fluxos de trabalho têm serviços de orquestração totalmente gerenciados, integrados à plataforma Databricks, incluindo o Databricks Jobs para execução de código não interativo em seu espaço de trabalho do Databricks e o Delta Live Tables para criação de pipelines de ETL confiáveis e sustentáveis.

A arquitetura de referência da Data Intelligence Platform na Google Cloud

A arquitetura de referência do GCP é derivada da arquitetura de referência genérica adicionando serviços específicos do GCP para os elementos Origem, Ingestão, Servidor, Análise/Saída e Armazenamento.

Arquitetura de referência para o Databricks lakehouse on Google Cloud

Download: Arquitetura de referência para o lakehouse Databricks no GCP

A arquitetura de referência do GCP mostra os seguintes serviços específicos do GCP para Ingest, Storage, Serve e Analysis/Output:

  • BigQuery como sistema de origem para Lakehouse Federation

  • Pub/Sub e Datastream para ingestão de streaming

  • Cloud Fusion e serviço de transferência de armazenamento para ingestão em lote

  • Cloud Storage como armazenamento de objetos

  • Cloud Big Table, Cloud SQL e Data Store como bancos de dados operacionais

  • O Looker como ferramenta de BI

Observação

  • Esta view da arquitetura de referência se concentra apenas nos serviços do Google Cloud e no Databricks lakehouse. O lakehouse on Databricks é uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros.

  • Os serviços do provedor de nuvem apresentados não são completos. Foram selecionadas para ilustrar o conceito.

Caso de uso: ETL em lotes

Arquitetura de referência para ETL em lote no Databricks no GCP

Download: arquitetura de referência de ETL em lotes para o Databricks on Google Cloud

As ferramentas de ingestão utilizam adaptadores específicos da fonte para ler os dados da fonte e em seguida armazená-los na cloud, de onde o Auto Loader pode lê-los, ou chamar o Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas ao Databricks lakehouse). Para carregar os dados, o mecanismo de ETL e processamento da Databricks, por meio de DLT, executa as consultas. Jobs de tarefa única ou multitarefa podem ser orquestrados por fluxo de trabalho do Databricks e governados pelo Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Se os sistemas operacionais de baixa latência exigirem acesso a golden tables específicas, elas poderão ser exportadas para um banco de dados operacional, como um RDBMS ou um armazenamento de key no fim do pipeline de ETL.

Caso de uso: transmissão e captura de dados de alterações (CDC)

Arquitetura de transmissão estruturada de Spark para Databricks on Google Cloud

Download: arquitetura de streaming estruturado do Spark para Databricks on Google Cloud

O mecanismo ETL do Databricks utiliza a transmissão estructurada do Spark para ler a partir de filas de eventos, como o Apache Kafka ou o Pub/Sub. Os passos posteriores seguem a abordagem do caso de uso do Lote acima.

A CDC captura de dados de alterações normalmente utiliza uma fila de eventos para armazenar os eventos extraídos. A partir daí, o caso de uso segue o caso de uso de transmissão.

Se o CDC for feito em lote, onde os registros extraídos são armazenados primeiro no armazenamento em nuvem, o Databricks Autoloader poderá lê-los e o caso de uso seguirá o ETL em lote.

Caso de uso: aprendizado de máquina e IA

Arquitetura de referência de aprendizado de máquina e IA para o Databricks on Google Cloud

Download: Arquitetura de referência de aprendizado de máquina e IA para o Databricks on Google Cloud

Para o aprendizado de máquina, a Databricks Data Intelligence Platform oferece o Mosaic AI, que vem com biblioteca de aprendizagem profunda e de máquina de última geração. Ele oferece recursos como o Feature Store e o registro de modelos (ambos integrados ao Unity Catalog), recursos com pouco código com AutoML e integração do MLflow ao ciclo de vida da ciência de dados.

Todos os ativos relacionados à ciência de dados (tabelas, recursos e modelos) são governados pelo Unity Catalog e os cientistas de dados podem usar Databricks Workflows para orquestrar seus trabalhos.

Caso de uso: análise de BI e SQL

Arquitetura de referência de análise de BI e SQL para o Databricks on Google Cloud

Download: Arquitetura de referência de análise de BI e SQL para Databricks on Google Cloud

Para casos de uso de BI, os analista de negócios podem usar o Databricks SQL ou ferramentas específicas de BI, como o Tableau ou o Looker. Em ambos os casos, o mecanismo é o Databricks SQL (serverless ou não) e o descobrimento de dados, a exploração e o controle de acesso são fornecidos pelo Unity Catalog.

Caso de uso: Federação da lakehouse

Arquitetura de referência da federação da lakehouse para Databricks on Google Cloud

Download: Arquitetura de referência da federação da lakehouse para Databricks on Google Cloud

A federação da lakehouse possibilita que bancos de dados SQL externos (como MySQL ou Postgres) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de ETL dos dados no armazenamento de objetos primeiro. O catálogo de fontes externas é associado no catálogo do Unity e o controle de acesso refinado pode ser aplicado ao acesso por meio da plataforma Databricks.

Caso de uso: compartilhamento de dados corporativos

Arquitetura de referência de compartilhamento de dados corporativos para Databricks no GCP

Download: Arquitetura de referência de compartilhamento de dados empresariais para a Databricks on Google Cloud

O compartilhamento de dados de nível empresarial é fornecido pela Delta Sharing. Proporciona acesso direto aos dados no armazenamento de objetos protegido pelo Unity Catalog, e o Databricks Marketplace é um fórum aberto para troca de produtos de dados.