Preparar dados e ambiente para ML e DL
Esta seção descreve como preparar seus dados e seu ambiente Databricks para aprendizado de máquina e aprendizado profundo.
Preparar dados
Os artigos desta seção abordam aspectos de carregamento e pré-processamento de dados que são específicos para aplicativos de ML e DL.
Preparar ambiente
O Databricks Runtime for Machine Learning (Databricks Runtime ML) é um ambiente pronto para uso otimizado para machine learning e ciência de dados. Databricks Runtime ML inclui muitas bibliotecas externas, incluindo TensorFlow, PyTorch, Horovod, Scikit-Learn e XGBoost, e fornece extensões para melhorar o desempenho, incluindo aceleração de GPU em XGBoost, aprendizagem profunda distribuída usando HorovodRunner e verificação de modelo usando um Databricks File System (DBFS ) Montagem com FUSÍVEL.
Para usar o Databricks Runtime ML, selecione a versão ML do tempo de execução ao criar o cluster.
Observação
Para acessar dados no Unity Catalog para fluxo de trabalho de machine learning, o modo de acesso aos clusters deve ser de usuário único (atribuído). Os clusters partilhados não são compatíveis com o Databricks Runtime para Machine Learning.
Instalar bibliotecas
Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para o seu notebook ou cluster.
Para disponibilizar uma biblioteca para todos Notebook em execução em clusters, crie uma biblioteca clusters . Você também pode usar um init script para instalar a biblioteca em clusters após a criação.
Para instalar uma biblioteca que está disponível apenas para uma sessão do notebook específica, use bibliotecas Python com escopo para notebooks.
Use clusters de GPU
O senhor pode criar clusters de GPU para acelerar a tarefa de aprendizagem profunda. Para obter informações sobre a criação de clusters de GPU Databricks, consulte Computação habilitada para GPU. O Databricks Runtime ML inclui drivers de hardware de GPU e biblioteca NVIDIA, como CUDA.