O que é um data lakehouse?

Um data lakehouse é um sistema de gestão de dados que combina os benefícios do data lake e data warehouse. Este artigo descreve o padrão arquitetônico lakehouse e o que você pode fazer com ele no Databricks.

Um diagrama da arquitetura lakehouse usando Unity Catalog e tabelas delta.

Para que é usado um data lakehouse?

Um data lakehouse fornece recursos escalonáveis de armazenamento e processamento para organizações modernas que desejam evitar sistemas isolados para processar diferentes cargas de trabalho, como machine learning (ML) e Business Intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir a atualização dos dados.

Os data lakehouses geralmente usam um padrão de design de dados que melhora, enriquece e refina gradativamente os dados à medida que eles se movem através de camadas de preparação e transformações. Cada camada da lakehouse pode incluir uma ou mais camadas. Esse padrão é freqüentemente chamado de arquitetura medalhão. Para mais informações, consulte O que é a arquitetura lakehouse medalhão?

Como funciona a casa do lago Databricks?

Databricks é construído no Apache Spark. O Apache Spark permite um mecanismo extremamente escalável que executa recursos compute desacoplados do armazenamento. Para obter mais informações, consulte Apache Spark em Databricks

O Databricks lakehouse usa duas tecnologias key adicionais:

Delta Lake: uma camada de armazenamento otimizada que suporta transações ACID e imposição de esquema.
Unity Catalog: soluções de governança unificadas e refinadas para dados e IA.

Ingestão de dados

Na camada de ingestão, lotes ou dados de transmissão chegam de diversas fontes e em diversos formatos. Essa primeira camada lógica fornece um local para os dados chegarem em seu formato bruto. Ao converter esses arquivos em tabelas Delta, você pode usar os recursos de imposição de esquema do Delta Lake para verificar se há dados ausentes ou inesperados. Você pode usar o Unity Catalog para registrar tabelas de acordo com seu modelo de governança de dados e limites de isolamento de dados necessários. O Unity Catalog permite rastrear a linhagem de seus dados à medida que eles são transformados e refinados, bem como aplicar um modelo de governança unificado para manter dados confidenciais privados e seguros.

Processamento, curadoria e integração de dados

Depois de verificado, você pode começar a selecionar e refinar seus dados. Cientistas de dados e profissionais machine learning frequentemente trabalham com dados nesta fase para começar a combinar ou criar novos recursos e concluir a Limpeza de dados. Depois que seus dados forem completamente limpos, eles poderão ser integrados e reorganizados em tabelas projetadas para atender às suas necessidades comerciais específicas.

Uma abordagem de esquema na gravação, combinada com os recursos de evolução do esquema Delta, significa que você pode fazer alterações nessa camada sem necessariamente ter que reescrever a lógica downstream que fornece dados aos usuários finais.

Serviço de dados

A camada final fornece dados limpos e enriquecedores para os usuários finais. As tabelas finais devem ser projetadas para servir dados para todos os seus casos de uso. Um modelo de governança unificado significa que você pode rastrear a linhagem de dados até sua única fonte de verdade. A disponibilidade de dados, otimizada para diferentes tarefas, permite que os usuários finais acessem dados para aplicações machine learning , data engineering e Business Intelligence e relatórios.

Para saber mais sobre Delta Lake, consulte O que é Delta Lake? Para saber mais sobre Unity Catalog, consulte O que é Unity Catalog?

Capacidades de um lago Databricks

Um lakehouse construído em Databricks substitui a dependência atual de data lake e data warehouse para empresas de dados modernas. Algumas tarefas key que você pode realizar incluem:

processamento de dados tempo-real: Processe dados de transmissão em tempo real para análise e ação imediatas.
integração de dados: unifique seus dados em um único sistema para permitir a colaboração e estabelecer uma única fonte de verdade para sua organização.
evolução do esquema: Modifique o esquema de dados ao longo do tempo para se adaptar às mudanças nas necessidades de negócios sem interromper o pipeline de dados existente.
Transformações de dados: usar Apache Spark e Delta Lake traz velocidade, escalabilidade e confiabilidade aos seus dados.
Análise e relatórios de dados: execução query analíticas complexas com um mecanismo otimizado para cargas de trabalho data warehousing .
Aprendizado de máquina e IA: aplique técnicas analíticas avançadas a todos os seus dados. Use ML para enriquecer seus dados e oferecer suporte a outras cargas de trabalho.
Controle de versão e linhagem de dados: mantenha a versão história do dataset e rastreie a linhagem para garantir a origem e a rastreabilidade dos dados.
governança de dados: Use um sistema único e unificado para controlar o acesso aos seus dados e realizar auditorias.
compartilhamento de dados: Facilite a colaboração permitindo o compartilhamento de conjuntos de dados selecionados, relatórios e entendimento entre equipes.
Análise operacional: monitore métricas de qualidade de dados, métricas de qualidade de modelo e desvios aplicando machine learning a dados de monitoramento de lakehouse.

Lakehouse x data lake x data warehouse

data warehouse impulsiona as decisões Business Intelligence (BI) há cerca de 30 anos, tendo evoluído como um conjunto de diretrizes de design para sistemas que controlam o fluxo de dados. data warehouse empresarial otimiza query de relatórios de BI, mas pode levar minutos ou até horas para gerar resultados. Projetado para dados que provavelmente não serão alterados com alta frequência, data warehouse busca evitar conflitos entre query executadas simultaneamente. Muitos data warehouse dependem de formatos proprietários, que muitas vezes limitam o suporte ao machine learning. data warehousing no Databricks aproveita os recursos de um databricks lakehouse e do Databricks SQL. Para obter mais informações, consulte O que é data warehousing no Databricks?.

Impulsionados pelos avanços tecnológicos no campo de armazenamento de dados e pelos aumentos exponenciais nos tipos e volumes de dados, os data lakes tornaram-se amplamente utilizados na última década. Os data lakes armazenam e processam dados de maneira barata e eficiente. Os data lakes são frequentemente definidos em oposição aos data warehouses: um data warehouse fornece dados limpos e estruturados para análise de BI, enquanto um data lake armazena dados de qualquer natureza de forma permanente e barata em qualquer formato. Muitas organizações usam data lakes para ciência de dados e machine learning, mas não para relatórios de BI devido à sua natureza não validada.

O data lakehouse combina os benefícios do data lake e data warehouse e oferece:

Acesso direto e imediato aos dados armazenados em formatos de dados padrão.
Protocolos de indexação otimizados para machine learning e ciência de dados.
Baixa latência de consulta e alta confiabilidade para BI e funções analíticas avançadas.

Ao combinar uma camada de metadados otimizada com dados validados armazenados em formatos padrão em armazenamento de objetos clouds , o data lakehouse permite que cientistas de dados e engenheiros de ML construam modelos a partir dos mesmos relatórios de BI data-driven .

Próximo passo

Para saber mais sobre os princípios e as práticas recomendadas para implementar e operar um lakehouse usando a Databricks, consulte Introdução ao data lakehouse bem arquitetado