O que é data warehousing na Databricks?
data warehousing refere-se à coleta e armazenamento de dados de múltiplas fontes para que possam ser acessados rapidamente para entendimento comercial e relatórios. Este artigo contém conceitos key para construir um data warehouse em seu data lakehouse.
data warehousing em sua casa no lago
A arquitetura lakehouse e o Databricks SQL trazem clouds data warehousing recursos para o seu data lake. Usando estruturas de dados, relações e ferramentas de gerenciamento familiares, você pode modelar um data warehouse de alto desempenho e econômico que pode ser executado diretamente em seu data lake. Para obter mais informações, consulte O que é um data lakehouse?
Tal como acontece com um data warehouse tradicional, você modela os dados de acordo com os requisitos de negócios e depois os fornece aos usuários finais para análises e relatórios. Ao contrário de um data warehouse tradicional, você pode evitar isolar seus dados analíticos de negócios ou criar cópias redundantes que rapidamente se tornam obsoletas.
Construir um data warehouse dentro de seu lakehouse permite que você reúna todos os seus dados em um único sistema e aproveite recursos como Unity Catalog e Delta Lake.
O Unity Catalog adiciona um modelo de governança unificado para que você possa proteger e auditar o acesso aos dados e fornecer informações de linhagem em tabelas downstream. Delta Lake adiciona transações ACID e evolução do esquema, entre outras ferramentas poderosas para manter seus dados confiáveis, escaláveis e de alta qualidade.
O que é o Databricks SQL?
Databricks SQL é a coleção de serviços que traz recursos e desempenho data warehousing para seu data lake existente. Databricks SQL suporta formatos abertos e SQL ANSI padrão. Um editor SQL na plataforma e ferramentas de painel permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. O Databricks SQL também se integra a uma variedade de ferramentas para que o analista possa criar query e painéis em seus ambientes favoritos sem se ajustar a uma nova plataforma.
Databricks SQL O site compute fornece recursos gerais que são executados nas tabelas do site lakehouse. Databricks SQL é alimentado pelo SQL warehouse, anteriormente chamado de SQL endpoint, que oferece SQL compute recurso escalável desacoplado do armazenamento.
Consulte Conectar-se a um SQL warehouse para obter mais informações sobre o padrão e as opções do armazém SQL.
O Databricks SQL integra-se ao Unity Catalog para que você possa descobrir, auditar e controlar dados ativos em um só lugar. Para saber mais, consulte O que é Unity Catalog?
Modelagem de dados em Databricks
Uma lakehouse oferece suporte a uma variedade de estilos de modelagem. A imagem a seguir mostra como os dados são selecionados e modelados à medida que se movem pelas diferentes camadas de um lakehouse.
Arquitetura medalhão
A arquitetura medalhão é um padrão de design de dados que descreve uma série de camadas de dados refinadas de forma incremental que fornecem uma estrutura básica no lakehouse. As camadas bronze, prata e ouro significam o aumento da qualidade dos dados em cada nível, com o ouro representando a mais alta qualidade. Para mais informações, consulte O que é a arquitetura da casa do lago medalhão?.
Dentro de um lakehouse, cada camada pode conter uma ou mais tabelas. O data warehouse é modelado na camada prata e alimenta data marts especializados na camada ouro.
Camada de bronze
Os dados podem entrar em sua lakehouse em qualquer formato e por meio de qualquer combinação de lotes ou transações a vapor. A camada bronze fornece o espaço de destino para todos os seus dados brutos em seu formato original. Esses dados são convertidos em tabelas Delta.
Camada prateada
A camada prateada reúne os dados de diferentes fontes. Para a parte do negócio que se concentra em aplicações de ciência de dados e machine learning , é aqui que você começa a fazer a curadoria de dados ativos significativos. Este processo é muitas vezes marcado pelo foco na velocidade e agilidade.
A camada prateada também é onde você pode integrar cuidadosamente dados de fontes diferentes para construir um data warehouse alinhado com seus processos de negócios existentes. Freqüentemente, esses dados seguem um modelo de Terceira Forma Normal (3NF) ou Cofre de Dados. A especificação de restrições key primária e estrangeira permite que os usuários finais entendam os relacionamentos das tabelas ao usar o Unity Catalog. Seu data warehouse deve servir como a única fonte de verdade para seus data marts.
O data warehouse em si é esquema na gravação e atômico. Ele é otimizado para mudanças, para que você possa modificar rapidamente o data warehouse para atender às suas necessidades atuais quando seus processos de negócios mudarem ou evoluírem.
Camada de ouro
A camada ouro é a camada de apresentação, que pode conter um ou mais data marts. Freqüentemente, os data marts são modelos dimensionais na forma de um conjunto de tabelas relacionadas que capturam uma perspectiva de negócios específica.
A camada ouro também abriga sandbox departamental e de ciência de dados para permitir autoserviço analítico e ciência de dados em toda a empresa. Fornecer esses sandbox e seus próprios clusters compute separados evita que as equipes de negócios criem cópias de dados fora do lakehouse.
Próximo passo
Para saber mais sobre os princípios e as práticas recomendadas para implementar e operar um lakehouse usando o Databricks, consulte Introdução ao data lakehouse bem arquitetado.