Preparar dados e ambiente para ML e DL

Esta seção descreve como preparar seus dados e seu ambiente Databricks para aprendizado de máquina e aprendizado profundo.

Preparar dados

Os artigos desta seção abordam aspectos de carregamento e pré-processamento de dados que são específicos para aplicativos de ML e DL.

Preparar ambiente

O Databricks Runtime for Machine Learning (Databricks Runtime ML) é um ambiente pronto para uso otimizado para machine learning e ciência de dados. Databricks Runtime ML inclui muitas bibliotecas externas, incluindo TensorFlow, PyTorch, Horovod, Scikit-Learn e XGBoost, e fornece extensões para melhorar o desempenho, incluindo aceleração de GPU em XGBoost, aprendizagem profunda distribuída usando HorovodRunner e verificação de modelo usando um Databricks File System (DBFS ) Montagem com FUSÍVEL.

Para usar o Databricks Runtime ML, selecione a versão ML do tempo de execução ao criar o cluster.

Observação

Para acessar dados no Unity Catalog para fluxo de trabalho de machine learning, o modo de acesso aos clusters deve ser de usuário único (atribuído). Os clusters partilhados não são compatíveis com o Databricks Runtime para Machine Learning.

Instalar bibliotecas

Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para o seu notebook ou cluster.

Use clusters de GPU

O senhor pode criar clusters de GPU para acelerar a tarefa de aprendizagem profunda. Para obter informações sobre a criação de clusters de GPU Databricks, consulte Computação habilitada para GPU. O Databricks Runtime ML inclui drivers de hardware de GPU e biblioteca NVIDIA, como CUDA.