Opções de formato de dados

Databricks integrou ligações de palavras-chave para todos os formatos de dados suportados nativamente pelo Apache Spark. Databricks usa Delta Lake como protocolo default para leitura e gravação de dados e tabelas, enquanto Apache Spark usa Parquet.

Estes artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando você query dados no Databricks.

Os seguintes formatos de dados têm configurações de palavras-chave integradas em Apache Spark DataFrames e SQL:

O Databricks também fornece uma palavra-chave personalizada para carregar experimentos MLflow.

Formatos de dados com considerações especiais

Alguns formatos de dados exigem configuração adicional ou considerações especiais para serem usados:

  • A Databricks recomenda carregar imagens como dados binary .

  • As tabelas Hive são nativamente suportadas pelo Apache Spark, mas requerem configuração no Databricks.

  • Databricks pode ler diretamente arquivos compactados em vários formatos de arquivo. Você também pode descompactar arquivos compactados no Databricks, se necessário.

  • LZO requer uma instalação de codec.

Para obter mais informações sobre a fonte de dados do Apache Spark, consulte Funções genéricas de carregamento/salvamento e opções genéricas de fonte de arquivo.