Introdução à preparação de dados no Databricks

Este artigo descreve como o Databricks pode ajudá-lo na preparação de dados para análise e machine learning. A preparação de dados é normalmente o componente mais demorado de um projeto analítico e machine learning , e bons dados são importantes para garantir resultados precisos e úteis.

Tarefa de preparação de dados

A preparação de dados inclui as seguintes tarefas:

  • Limpeza e formatação de dados. Isso inclui tarefas como lidar com valores ausentes ou discrepantes, garantir que os dados estejam no formato correto e remover colunas desnecessárias.

  • Dados de pré-processamento. Isso inclui tarefas como transformações numéricas, agregação de dados, codificação de texto ou dados de imagem e criação de novos recursos.

  • Combinando dados. Isso inclui tarefas como unir tabelas ou mesclar dataset.

Recurso e informação de preparação de dados

A plataforma Databricks fornece uma plataforma unificada para aquisição de dados, preparação, análise e machine learning e monitoramento.

  • A arquitetura medalhão do lago o orienta na preparação de dados, especificando um conjunto de camadas de dados de qualidade crescente. A arquitetura mantém as garantias ACID à medida que os dados passam por várias camadas de validações e transformações antes de serem armazenados em uma disposição otimizada para análises eficientes.

  • Delta Live Tables é uma estrutura para criar pipelines de processamento de dados confiáveis, sustentáveis e testáveis. Você define as transformações a serem realizadas em seus dados e o Delta Live Tables gerencia a orquestração de tarefas, gerenciamento clusters , monitoramento, qualidade de dados e tratamento de erros.

  • O Databricks Partner Connect permite que você conecte seu workspace do Databricks diretamente a parceiros de preparação e transformação de dados de terceiros. parceiros Conecte o provisionamento dos recursos necessários do Databricks em seu nome e, em seguida, passe os detalhes dos recursos para os parceiros.

  • Databricks Runtime e Databricks Runtime ML fornecem ambientes pré-criados que vêm com muitas das bibliotecas de preparação de dados mais usadas já instaladas. Uma lista de todas as bibliotecas integradas está disponível nas notas sobre a versão.

  • A engenharia de recursos para machine learning é o processo de conversão de dados brutos em recursos que podem ser usados para desenvolver o modelo de machine learning. Para aplicativos de ML, o Databricks Feature Store ajuda sua equipe a descobrir e reutilizar recursos, rastrear a linhagem de recursos e publicar recursos em lojas online para atendimento em tempo real e pesquisa automática.