Princípios orientadores para a casa do lago

Os princípios orientadores são regras de nível zero que definem e influenciam sua arquitetura. Para criar um data lakehouse que ajude sua empresa a ter sucesso agora e no futuro, é fundamental que haja consenso entre as partes interessadas de sua organização.

Faça a curadoria de dados e ofereça dados confiáveis como produto

A curadoria de dados é essencial para criar um site de alto valor data lake para BI e ML/IA. Trate os dados como um produto com uma definição, um esquema e um ciclo de vida claros. Garanta a consistência semântica e que a qualidade dos dados melhore de camada em camada para que os usuários corporativos possam confiar totalmente nos dados.

Faça a curadoria de dados e ofereça dados confiáveis como produto

A curadoria de dados por meio do estabelecimento de uma arquitetura em camadas (ou multi-hop) é uma prática recomendada essencial para a lakehouse, pois permite que as equipes de dados estruturem os dados de acordo com os níveis de qualidade e definam funções e responsabilidades por camada. Uma abordagem comum de camadas é:

  • Camada de ingestão: Os dados de origem são ingeridos no lakehouse na primeira camada e devem ser mantidos lá. Quando todos os dados downstream são criados a partir da camada de ingestão, é possível reconstruir as camadas subsequentes a partir dessa camada, se necessário.

  • Camada selecionada: O objetivo da segunda camada é manter dados limpos, refinados, filtrados e agregados. O objetivo dessa camada é fornecer uma base sólida e confiável para análises e relatórios em todos os cargos e funções.

  • Camada final: A terceira camada é criada de acordo com as necessidades do negócio ou do projeto; ela fornece um view diferente como produto de dados para outras unidades de negócios ou projetos, preparando dados de acordo com as necessidades de segurança (por exemplo, dados anônimos) ou otimizando o desempenho (com visualização pré-agregada). Os produtos de dados nessa camada são vistos como a verdade para os negócios.

O pipeline em todas as camadas precisa garantir que as restrições de qualidade dos dados sejam atendidas, o que significa que os dados são precisos, completos, acessíveis e consistentes em todos os momentos, mesmo durante leituras e gravações simultâneas. A validação de novos dados ocorre no momento da entrada de dados na camada com curadoria, e os passos seguintes do ETL trabalham para melhorar a qualidade desses dados. A qualidade dos dados deve melhorar à medida que os dados avançam pelas camadas e, dessa forma, a confiança nos dados aumenta subsequentemente do ponto de vista comercial view.

Eliminar silos de dados e minimizar a movimentação de dados

Não crie cópias de um site dataset com processos comerciais que dependam dessas cópias diferentes. As cópias podem se tornar silos de dados que ficam fora de sincronia, levando a uma qualidade inferior de seu data lake e, finalmente, a percepções desatualizadas ou incorretas. Além disso, para compartilhar dados com parceiros externos, use um mecanismo de compartilhamento empresarial que permita o acesso direto aos dados de forma segura.

Eliminar silos de dados e minimizar a movimentação de dados

Para deixar clara a distinção entre uma cópia de dados e um silo de dados: uma cópia autônoma ou descartável de dados não é prejudicial por si só. Às vezes, isso é necessário para aumentar a agilidade, a experimentação e a inovação. No entanto, se essas cópias se tornarem operacionais com produtos de dados comerciais downstream dependentes delas, elas se tornarão silos de dados.

Para evitar silos de dados, as equipes de dados geralmente tentam criar um mecanismo ou pipeline de dados para manter todas as cópias em sincronia com o original. Como é improvável que isso ocorra de forma consistente, a qualidade dos dados acaba se degradando. Isso também pode levar a custos mais altos e a uma perda significativa de confiança por parte dos usuários. Por outro lado, vários casos de uso comercial exigem o compartilhamento de dados com parceiros ou fornecedores.

Um aspecto importante é compartilhar de forma segura e confiável a versão mais recente do site dataset. Cópias do site dataset geralmente não são suficientes, pois podem ficar fora de sincronia rapidamente. Em vez disso, os dados devem ser compartilhados por meio de ferramentas corporativas de compartilhamento de dados.

Democratizar a criação de valor por meio do autosserviço

O melhor data lake não pode fornecer valor suficiente se os usuários não puderem acessar facilmente a plataforma ou os dados para suas tarefas de BI e ML/IA. Reduzir as barreiras de acesso a dados e plataformas para todas as unidades de negócios. Considere os processos de gerenciamento enxuto de dados e forneça acesso autosserviço para a plataforma e os dados subjacentes.

Democratize a criação de valor por meio do autoatendimento

As empresas que conseguiram mudar para uma cultura data-driven prosperarão. Isso significa que todas as unidades de negócios tomam suas decisões com base em modelos analíticos ou na análise de seus próprios dados ou de dados fornecidos centralmente. Para os consumidores, os dados devem ser facilmente detectáveis e acessíveis com segurança.

Um bom conceito para os produtores de dados é "dados como um produto": Os dados são oferecidos e mantidos por uma unidade de negócios ou parceiros de negócios como um produto e consumidos por outras partes com o devido controle de permissão. Em vez de depender de uma equipe central e de processos de solicitação potencialmente lentos, esses produtos de dados devem ser criados, oferecidos, descobertos e consumidos em uma experiência de autosserviço.

No entanto, não são apenas os dados que importam. A democratização dos dados exige as ferramentas certas para que todos possam produzir ou consumir e entender os dados. Para isso, o senhor precisa que o data lakehouse seja uma plataforma moderna de dados e IA que forneça a infraestrutura e as ferramentas para criar produtos de dados sem duplicar o esforço de configurar outra pilha de ferramentas.

Adotar uma estratégia de governança de dados em toda a organização

Os dados são um ativo essencial de qualquer organização, mas o senhor não pode dar a todos acesso a todos os dados. O acesso aos dados deve ser gerenciado ativamente. O controle de acesso, a auditoria e o acompanhamento da linhagem são key para o uso correto e seguro dos dados.

Adote uma estratégia de governança de dados em toda a organização

A governança de dados é um tema amplo. O site lakehouse abrange as seguintes dimensões:

  • Qualidade dos dados

    O pré-requisito mais importante para relatórios, resultados de análises e modelos corretos e significativos são dados de alta qualidade. A garantia de qualidade (QA) precisa existir em torno de todos os passos do pipeline. Exemplos de como implementar isso incluem ter contratos de dados, atender aos SLAs, manter os esquemas estáveis e evoluí-los de forma controlada.

  • Catálogo de dados

    Outro aspecto importante é o descobrimento de dados: Os usuários de todas as áreas de negócios, especialmente em um modelo de autosserviço, devem ser capazes de descobrir facilmente os dados relevantes. Portanto, uma lakehouse precisa de um catálogo de dados que abranja todos os dados relevantes para os negócios. Os principais objetivos de um catálogo de dados são os seguintes:

    • Garantir que o mesmo conceito de negócios seja chamado e declarado de maneira uniforme em toda a empresa. O senhor pode pensar nisso como um modelo semântico na camada curada e na camada final.

    • Rastreie a linhagem de dados com precisão para que os usuários possam explicar como esses dados chegaram à sua forma e ao seu formato atuais.

    • Manter metadados de alta qualidade, que são tão importantes quanto os próprios dados para o uso adequado dos dados.

  • Controle de acesso

    Como a criação de valor a partir dos dados no lakehouse ocorre em todas as áreas de negócios, o lakehouse deve ser construído com a segurança como um cidadão de primeira classe. As empresas podem ter uma política de acesso a dados mais aberta ou seguir estritamente o princípio dos menores privilégios. Independentemente disso, os controles de acesso aos dados devem ser implementados em todas as camadas. É importante implementar esquemas de permissão de nível fino desde o início (controle de acesso em nível de coluna e linha, controle de acesso baseado em função ou atributo). As empresas podem começar com regras menos rígidas. Mas, à medida que a plataforma lakehouse cresce, todos os mecanismos e processos para um regime de segurança mais sofisticado já devem estar em vigor. Além disso, todo o acesso aos dados no lakehouse deve ser controlado por logs de auditoria desde o início.

Incentivar interfaces e formatos abertos

Interfaces e formatos de dados abertos são cruciais para a interoperabilidade entre a lakehouse e outras ferramentas. Ela simplifica a integração com os sistemas existentes e também abre um ecossistema de parceiros que integraram suas ferramentas à plataforma.

Incentivar interfaces e formatos abertos

As interfaces abertas são essenciais para permitir a interoperabilidade e evitar a dependência de um único fornecedor. Tradicionalmente, os fornecedores criavam tecnologia proprietária e interfaces fechadas que limitavam as empresas na forma como podiam armazenar, processar e compartilhar dados.

Construir com base em interfaces abertas ajuda o senhor a construir para o futuro:

  • Ele aumenta a longevidade e a portabilidade dos dados para que o senhor possa usá-los com mais aplicativos e para mais casos de uso.

  • Ele abre um ecossistema de parceiros que podem aproveitar rapidamente as interfaces abertas para integrar suas ferramentas à plataforma lakehouse.

Por fim, com a padronização de formatos abertos para os dados, os custos totais serão significativamente menores; é possível acessar os dados diretamente no armazenamento em nuvem sem a necessidade de canalizá-los por meio de uma plataforma proprietária que pode incorrer em altos custos de saída e computação.

Construir de acordo com a escala e otimizar o desempenho e o custo

Os dados inevitavelmente continuam a crescer e a se tornar mais complexos. Para equipar sua organização para necessidades futuras, o site lakehouse deve ser capaz de escalonar. Por exemplo, o senhor deve ser capaz de adicionar novos recursos facilmente sob demanda. Os custos devem ser limitados ao consumo real.

Construir de acordo com a escala e otimizar o desempenho e o custo

Os processos ETL padrão, os relatórios comerciais e os painéis geralmente têm uma necessidade de recurso previsível do ponto de vista da memória e da computação. No entanto, novos projetos, tarefas sazonais ou abordagens modernas como treinamento de modelos (churn, previsão, manutenção) geram picos de necessidade de recursos. Para que uma empresa possa executar todas essas cargas de trabalho, é necessária uma plataforma escalável para memória e computação. Novos recursos devem ser adicionados facilmente sob demanda, e somente o consumo real deve gerar custos. Assim que o pico terminar, o recurso poderá ser liberado novamente e os custos reduzidos de acordo. Geralmente, isso é chamado de escalonamento horizontal (menos ou mais nós) e escalonamento vertical (nós maiores ou menores).

O dimensionamento também permite que as empresas melhorem o desempenho das consultas selecionando nós com mais recursos ou clusters com mais nós. Mas, em vez de fornecer permanentemente grandes máquinas e clusters, eles podem ser provisionados sob demanda apenas pelo tempo necessário para otimizar a relação entre desempenho e custo geral. Outro aspecto da otimização é o armazenamento versus compute recurso. Como não há uma relação clara entre o volume de dados e as cargas de trabalho que usam esses dados (por exemplo, usar apenas partes dos dados ou fazer cálculos intensivos em dados pequenos), é uma boa prática estabelecer uma plataforma de infraestrutura que dissocie o armazenamento e compute recurso.