Databricks Runtime para aprendizado de máquina
Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiza a criação de um cluster com infraestrutura pré-construída machine learning e aprendizagem profunda, incluindo a biblioteca mais comum ML e DL. Para obter a lista completa de bibliotecas em cada versão do Databricks Runtime ML, consulte as notas sobre a versão.
Observação
Para acessar os dados em Unity Catalog para machine learning fluxo de trabalho, o modo de acesso para cluster deve ser de usuário único (atribuído). Os clusters compartilhados não são compatíveis com o Databricks Runtime for Machine Learning. Além disso, o Databricks Runtime ML não é compatível com clusters TableACLs ou clusters com spark.databricks.pyspark.enableProcessIsolation config
definido como true
.
Criar um cluster usando o Databricks Runtime ML
Quando o senhor criar um cluster, selecione uma versão do Databricks Runtime ML no menu suspenso Versão do tempo de execução do Databricks. Estão disponíveis tempos de execução de ML habilitados para CPU e GPU.
Se o senhor selecionar um cluster no menu suspenso do Notebook, a versão Databricks Runtime aparecerá à direita do nome cluster:
Se o senhor selecionar um tempo de execução ML habilitado para GPU, será solicitado a selecionar um tipo de driver e um tipo de trabalhador compatíveis. Os tipos de instância incompatíveis estão acinzentados no menu suspenso. Os tipos de instância habilitados para GPU são listados sob o rótulo GPU accelerated. Para obter informações sobre como criar Databricks GPU clusters, consulte GPU-enabled compute. Databricks Runtime ML Inclui drivers de hardware de GPU e biblioteca NVIDIA, como CUDA.
Photon e Databricks Runtime ML
Quando o senhor cria uma CPU cluster executando Databricks Runtime 15.2 ML ou acima, pode optar por ativar Photon. Photon melhora o desempenho de aplicativos que usam Spark SQL, Spark DataFrames, recurso engenharia, GraphFrames, e xgboost4j. Não se espera que melhore o desempenho dos aplicativos que usam Spark RDDs, Pandas UDFs e linguagens não JVM, como Python. Portanto, o pacote Python, como XGBoost, PyTorch e TensorFlow, não terá melhorias com o Photon.
As APIs do Spark RDD e o Spark MLlib têm compatibilidade limitada com o Photon. Ao processar grandes conjuntos de dados usando Spark RDD ou Spark MLlib, o senhor pode ter problemas de memória em Spark. Consulte Problemas de memória do Spark.
biblioteca incluída em Databricks Runtime ML
Databricks Runtime ML inclui uma variedade de ML biblioteca populares. A biblioteca é atualizada a cada versão para incluir novos recursos e correções.
Databricks designou um subconjunto das bibliotecas apoiadas como biblioteca de primeira linha. Para essas bibliotecas, o site Databricks oferece uma cadência de atualização mais rápida, atualizando para as versões mais recentes do pacote a cada versão de tempo de execução (salvo conflitos de dependência). Databricks também oferece suporte avançado, testes e otimizações incorporadas para bibliotecas de primeira linha.
Para obter uma lista completa das bibliotecas de primeira linha e outras fornecidas, consulte as notas sobre a versão para Databricks Runtime ML.
Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para o seu notebook ou cluster.
Para tornar uma biblioteca disponível para todos os notebooks em execução em um cluster, crie uma biblioteca cluster . O senhor também pode usar um init script para instalar o biblioteca em clusters após a criação.
Para instalar uma biblioteca que está disponível apenas para uma sessão do notebook específica, use bibliotecas Python com escopo para notebooks.