Interoperabilidade e usabilidade para o data lakehouse
Este artigo aborda princípios arquiteturais do pilar de interoperabilidade e usabilidade , referentes à interação da lakehouse com usuários e outros sistemas. Uma das ideias fundamentais da lakehouse é proporcionar uma ótima experiência de usuário para todas as personas que trabalham com ela e poder interagir com um amplo ecossistema de sistemas externos.
Interoperabilidade é a capacidade de um sistema trabalhar e se integrar a outros sistemas. Implica interação entre diferentes componentes e produtos, possivelmente de vários fornecedores, e entre versões passadas e futuras do mesmo produto.
A usabilidade é a medida de quão bem um sistema permite que os usuários realizem a tarefa com segurança, eficácia e eficiência.
Seguir os princípios deste pilar ajuda a:
Obtenha uma experiência de usuário consistente e colaborativa.
Aproveite as sinergias na cloud.
Simplifique a integração de e para a lakehouse.
Reduza os custos de treinamento e capacitação.
E, finalmente, leva a um tempo mais rápido para agregar valor.
Princípios de interoperabilidade e usabilidade
Definir padrões para integração
A integração tem diferentes aspectos e pode ser feita de muitas maneiras diferentes. Para evitar a proliferação de ferramentas e abordagens, as práticas recomendadas devem ser definidas e deve ser fornecida uma lista de ferramentas e conectores preferidos e com bom suporte.
Um dos key princípios arquitetônicos é a modularidade e o acoplamento flexível, em vez da integração rígida. Isso reduz as dependências entre componentes e cargas de trabalho, ajuda a eliminar efeitos colaterais e permite o desenvolvimento independente em diferentes escalas de tempo. Use dataset e seu esquema como um contrato. Cargas de trabalho separadas, como Job de transformação de dados (como carregar e transformar dados em um data lake) do Job agregação de valor (por exemplo, relatórios, painéis e engenharia de recursos de ciência de dados). Defina um catálogo de dados central com diretrizes para formatos de dados, qualidade de dados e ciclo de vida dos dados.
Usar interfaces abertas e formatos de dados abertos
Muitas vezes, são desenvolvidas soluções em que os dados só podem ser acessados por meio de um sistema específico. Isso pode levar à dependência do fornecedor, mas também pode se tornar um grande gerador de custos se o acesso aos dados por meio desse sistema estiver sujeito a taxas de licença. O uso de formatos e interfaces de dados abertos ajuda a evitar isso. Eles também simplificam a integração com os sistemas existentes e abrem um ecossistema de parceiros que já integraram suas ferramentas à lakehouse.
Se você usar ecossistemas de código aberto, como Python ou R para ciência de dados, ou Spark ou ANSI SQL para acesso a dados e controle de direitos de acesso, será mais fácil encontrar pessoal para projetos. Também simplificará possíveis migrações de e para uma plataforma.
Simplificar a implementação de novos casos de uso
Para aproveitar ao máximo os dados no data lake, os usuários devem ser capazes de implantar facilmente seus casos de uso na plataforma. Isso começa com processos enxutos em torno do acesso à plataforma e da gestão de dados. Por exemplo, o acesso de autosserviço à plataforma ajuda a evitar que uma equipe central se torne um gargalo. Ambientes compartilhados e modelos predefinidos para a implantação de novos ambientes garantem que a plataforma esteja rapidamente disponível para qualquer usuário corporativo.
Garanta a consistência e a usabilidade dos dados
Duas atividades importantes em uma plataforma de dados são a publicação e o consumo de dados. Do ponto de vista editorial, os dados devem ser oferecidos como um produto. Os editores precisam seguir um ciclo de vida definido com os consumidores em mente, e os dados precisam ser claramente definidos com esquemas gerenciados, descrições e assim por diante.
Também é importante fornecer dados semanticamente consistentes para que os consumidores possam entender facilmente e combinar corretamente diferentes conjuntos de dados. Além disso, todos os dados devem ser facilmente descobertos e acessíveis aos consumidores por meio de um catálogo central com metadados e linhagem de dados devidamente selecionados.
Próximo: Práticas recomendadas para interoperabilidade e usabilidade
Consulte Melhores práticas para interoperabilidade e usabilidade.