Arquitetura de data lakehouse: Estrutura bem arquitetada da Databricks

Esse conjunto de artigos sobre arquitetura de data lakehouse fornece princípios e práticas recomendadas para a implementação e operação de um lakehouse usando o Databricks.

Estrutura bem arquitetada da Databricks para a casa do lago

Estrutura bem arquitetada: diagrama do data lakehouse.

O lakehouse bem arquitetado consiste em sete pilares que descrevem diferentes áreas de preocupação para a implementação de um data lakehouse na nuvem:

  • Governança de dados

    A supervisão para garantir que os dados agreguem valor e apoiem sua estratégia de negócios.

  • Interoperabilidade e usabilidade

    A capacidade da lakehouse de interagir com usuários e outros sistemas.

  • Excelência operacional

    Todos os processos operacionais que mantêm o site lakehouse em funcionamento na produção.

  • Segurança, privacidade e compliance

    Proteja o aplicativo Databricks, as cargas de trabalho do cliente e os dados do cliente contra ameaças.

  • Confiabilidade

    A capacidade de um sistema de se recuperar de falhas e continuar funcionando.

  • Eficiência de desempenho

    A capacidade de um sistema de se adaptar às mudanças na carga.

  • Otimização de custos

    Gerenciar os custos para maximizar o valor entregue.

O Well-Architected lakehouse estende a Google Cloud Architecture Framework para a Databricks Data Intelligence Platform e compartilha os pilares "Excelência operacional", "Segurança, privacidade e compliance", "Confiabilidade", "Otimização de desempenho" (como "Eficiência de desempenho") e "Otimização de custos".

Para esses cinco pilares, os princípios e as práticas recomendadas da estrutura de nuvens ainda se aplicam ao site lakehouse. O site lakehousebem arquitetado amplia esses princípios e práticas recomendadas que são específicos do site lakehouse e importantes para criar um site lakehouse eficaz e eficiente.

governança de dados e interoperabilidade & Usabilidade em arquiteturas lakehouse

Os pilares "governança de dados" e "interoperabilidade e usabilidade" abrangem preocupações específicas do site lakehouse.

A governança de dados engloba as políticas e práticas implementadas para gerenciar com segurança os dados ativos em uma organização. Um dos aspectos fundamentais de uma lakehouse é a governança de dados centralizada: A lakehouse unifica os casos de uso de data warehousing e IA em uma única plataforma. Isso simplifica a pilha de dados moderna, eliminando os silos de dados que tradicionalmente separam e complicam a engenharia de dados, a analítica, o BI, a ciência de dados e machine learning. Para simplificar a governança de dados, o site lakehouse oferece soluções de governança unificadas para análise de dados e IA. Ao minimizar as cópias de seus dados e migrar para uma única camada de processamento de dados em que todos os seus controles de governança de dados possam ser executados em conjunto, o senhor aumenta suas chances de permanecer em compliance e detectar uma violação de dados.

Outro princípio importante da lakehouse é proporcionar uma excelente experiência de usuário para todas as pessoas que trabalham com ela e poder interagir com um amplo ecossistema de sistemas externos. As nuvens do Google já têm uma variedade de ferramentas de dados que realizam a maioria das tarefas que uma empresa data-driven pode precisar. No entanto, essas ferramentas devem ser montadas adequadamente para fornecer todas as funcionalidades, sendo que cada serviço oferece uma experiência de usuário diferente. Essa abordagem pode levar a altos custos de implementação e, normalmente, não oferece a mesma experiência de usuário que uma plataforma lakehouse nativa: Os usuários são limitados por inconsistências entre as ferramentas e pela falta de recursos de colaboração e, muitas vezes, precisam passar por processos complexos para obter acesso ao sistema e, portanto, aos dados.

Um lakehouse integrado, por outro lado, proporciona uma experiência de usuário consistente em todas as cargas de trabalho e, portanto, aumenta a usabilidade. Isso reduz os custos de treinamento e integração e melhora a colaboração entre as funções. Além disso, novos recursos são adicionados automaticamente ao longo do tempo, para melhorar ainda mais a experiência do usuário, sem a necessidade de investir em recursos e orçamentos internos.

Uma abordagemcloud múltipla pode ser uma estratégia deliberada de uma empresa ou o resultado de fusões e aquisições ou de unidades de negócios independentes que selecionam diferentes provedores de cloud. Nesse caso, o uso de umcloud lakehouse múltiplo resulta em uma experiência de usuário unificada em todos os clouds. Isso reduz a proliferação de sistemas em toda a empresa, o que, por sua vez, reduz os requisitos de habilidade e treinamento dos funcionários envolvidos na tarefa data-driven.

Por fim, em um mundo conectado em rede com processos de negócios entre empresas, os sistemas devem trabalhar juntos da forma mais perfeita possível. O grau de interoperabilidade é um critério crucial aqui, e os dados mais recentes, como um ativo essencial de qualquer empresa, devem fluir com segurança entre os sistemas de parceiros internos e externos.