Carregue dados para aprendizado de máquina e aprendizado profundo

Esta seção aborda informações sobre o carregamento de dados especificamente para aplicativos de ML e DL. Para obter informações gerais sobre o carregamento de dados, consulte Ingerir dados em um Databricks lakehouse.

Armazene arquivos para carregamento de dados e verificação de modelos

Os aplicativos de aprendizado de máquina podem precisar usar armazenamento compartilhado para carregamento de dados e ponto de verificação de modelo. Isso é particularmente importante para a aprendizagem profunda distribuída.

Databricks fornece o Databricks File System (DBFS) para acessar dados em clusters usando Spark e APIs de arquivo local.

Carregar dados tabulares

O senhor pode carregar dados tabulares do site machine learning a partir de tabelas ou arquivos (por exemplo, consulte Ler e gravar em arquivos CSV). O senhor pode converter os DataFrames do Apache Spark em Pandas DataFrames usando o método PySpark toPandas() e, opcionalmente, converter para o formato NumPy usando o método PySpark to_numpy().

Prepare dados para ajustar modelos de linguagem grandes

Você pode preparar seus dados para ajustar modelos de linguagem grande de código aberto com Hugging Face Transformers e Hugging Face Datasets.

Prepare os dados para o ajuste fino dos modelos Hugging Face

Preparar dados para treinamento distribuído

Esta seção aborda dois métodos para preparar dados para treinamento distribuído: Petastorm e TFRecords.