aprendizagem profunda
Este artigo fornece uma breve introdução ao uso de PyTorch, Tensorflow e treinamento distribuído para desenvolver e ajustar modelos de aprendizagem profunda em Databricks. Também inclui links para páginas com exemplos Notebook que ilustram como usar essas ferramentas.
Para obter diretrizes gerais sobre como otimizar o fluxo de trabalho de aprendizagem profunda no Databricks, consulte Melhores práticas para aprendizagem profunda no Databricks.
Para obter informações sobre como trabalhar com grandes modelos de linguagem e IA generativa em Databricks, consulte:
PyTorchName
PyTorch está incluído no Databricks Runtime ML e fornece computação de tensor acelerada por GPU e funcionalidades de alto nível para a construção de redes de aprendizagem profunda. Você pode realizar treinamento de nó único ou treinamento distribuído com PyTorch no Databricks. Veja PyTorch.
TensorFlow
O Databricks Runtime ML inclui TensorFlow e TensorBoard, para que você possa usar essas bibliotecas sem instalar nenhum pacote. O TensorFlow oferece suporte ao aprendizado profundo e cálculos numéricos gerais em CPUs, GPUs e clusters de GPUs. O TensorBoard fornece ferramentas de visualização para ajudar você a depurar e otimizar machine learning e o fluxo de trabalho profundo. Consulte TensorFlow para exemplos de treinamento distribuído e de nó único.
treinamento distribuído
Como os modelos de aprendizagem profunda consomem muitos dados e computação, o treinamento distribuído pode ser importante. Para obter exemplos de aprendizagem profunda distribuída usando integrações com Ray, TorchDistributor e DeepSpeed, consulte Treinamento distribuído.
Acompanhe o desenvolvimento do modelo de aprendizagem profunda
O acompanhamento continua a ser uma pedra angular do ecossistema MLflow e é especialmente vital para a natureza iterativa da aprendizagem profunda. Databricks usa MLflow para rastrear a execução de treinamento de aprendizagem profunda e o desenvolvimento de modelos. Consulte Acompanhar o desenvolvimento de modelos usando MLflow.