Computação habilitada para GPU

Observação

Alguns tipos de instância habilitados para GPU estão em versão beta e são marcados como tal na lista suspensa quando o senhor seleciona os tipos de driver e worker durante a criação de compute.

Visão geral

O Databricks suporta compute acelerado com unidades de processamento gráfico (GPUs). Este artigo descreve como criar o site compute com instâncias habilitadas para GPU e descreve os drivers de GPU e a biblioteca instalada nessas instâncias.

Para saber mais sobre aprendizagem profunda em compute habilitado para GPU, consulte Aprendizagem profunda.

Criar uma computação de GPU

Criar uma GPU compute é semelhante a criar qualquer compute. O senhor deve ter em mente o seguinte:

A versão do Databricks Runtime deve ser uma versão habilitada para GPU, como Runtime 13.3 LTS ML (GPU, Scala 2.12.15, Spark 3.4.1).
O tipoworker e o tipo de driver devem ser tipos de instância de GPU.

Tipos de instância compatíveis

Databricks dá suporte aos seguintes tipos de instância:

Tipo de GPU: GPU NVIDIA A100 80GB

Nome da instância	Número de GPUs	Memória GPU	vCPUs	Memória da CPU
a2-ultraflu-1g	1	80 GB	12	170 GB
a2-ultra gpu-2g	2	80 GB x 2	24	340GB
a2-ultra gpu - 4g	4	80 GB x 4	48	680 GB
uma GPU de 2 ultragpu-8 g	8	80 GB x 8	96	1360 GB

Tipo de GPU: GPU NVIDIA A100 de 40 GB

Nome da instância	Número de GPUs	Memória GPU	vCPUs	Memória da CPU
uma GPU de 2 alturas - 1g	1	40GB	12	85 GB
uma GPU de 2 g de altura	2	40 GB x 2	24	170 GB
a2-high gpu -4g	4	40 GB x 4	48	340GB
uma GPU de 2 alturas - 8g	8	40 GB x 8	96	680 GB
uma GPU de 2 megapixels - 16g	16	40 GB x 16	96	1360 GB

Tipo de GPU: GPU NVIDIA L4

Nome da instância	Número de GPUs	Memória GPU	vCPUs	Memória da CPU
padrão g2 4	1	24 GB	4	16GB
padrão g2 - 8	1	24 GB	8	32 GB
padrão g2 12	1	24 GB	12	48 GB
padrão g2 16	1	24 GB	16	64GB
padrão g2 24	2	24 GB x 2	24	96 GB
padrão g2 32	1	24 GB	32	128 GB
padrão g2 48	4	24 GB x 4	44	192 GB
padrão g2 96	8	24 GB x 8	96	384 GB

Consulte Máquinas otimizadas por acelerador do GCP para obter mais informações sobre esses tipos de instância e regiões do GCP para verificar onde essas instâncias estão disponíveis. Sua implantação do Databricks deve residir em uma região com suporte para iniciar o compute habilitado para GPU.

Programador GPU

A programação da GPU distribui a tarefa Spark de forma eficiente em um grande número de GPUs.

Databricks Runtime 9.1 LTS ML e acima suportam programação com reconhecimento de GPU a partir de Apache Spark 3.0. Databricks o pré-configura na GPU compute para o senhor.

Observação

A programação da GPU não está habilitada em um único nó compute.

Programação de GPU para IA e ML

spark.task.resource.gpu.amount é a única configuração do Spark relacionada ao programa com reconhecimento de GPU que o senhor talvez precise configurar. A configuração default usa uma GPU por tarefa, o que é uma boa linha de base para cargas de trabalho de inferência distribuída e treinamento distribuído se o senhor usar todos os nós de GPU.

Para reduzir a sobrecarga de comunicação durante o treinamento distribuído, o site Databricks recomenda definir spark.task.resource.gpu.amount como o número de GPUs por nó worker na configuração compute Spark . Isso cria apenas uma tarefa Spark para cada Spark worker e atribui todas as GPUs nesse nó worker à mesma tarefa.

Para aumentar a paralelização da inferência de aprendizagem profunda distribuída, o senhor pode definir spark.task.resource.gpu.amount como valores fracionários, como 1/2, 1/3, 1/4, ... 1/N. Isso cria mais Spark tarefa do que o número de GPUs, permitindo que mais tarefa concorrente lide com solicitações de inferência em paralelo. Por exemplo, se o senhor definir spark.task.resource.gpu.amount como 0.5, 0.33 ou 0.25, as GPUs disponíveis serão divididas entre o dobro, o triplo ou o quádruplo do número de tarefas.

Índices de GPU

Para PySpark tarefa, Databricks remapeia automaticamente a(s) GPU(s) atribuída(s) para índices baseados em zero. Para a configuração default que usa uma GPU por tarefa, o senhor pode usar a GPU default sem verificar qual GPU está atribuída à tarefa. Se o senhor definir várias GPUs por tarefa, por exemplo, 4, os índices das GPUs atribuídas serão sempre 0, 1, 2 e 3. Se o senhor precisar dos índices físicos das GPUs atribuídas, poderá obtê-los na variável de ambiente CUDA_VISIBLE_DEVICES.

Se você usar Scala, poderá obter os índices das GPUs atribuídas à tarefa em TaskContext.resources().get("gpu").

Driver de GPU NVIDIA, CUDA e cuDNN

Databricks instala o driver NVIDIA e a biblioteca necessária para usar GPUs no driver Spark e nas instâncias worker :

CUDA Toolkit, instalado em /usr/local/cuda.
cuDNN: biblioteca NVIDIA CUDA Deep Neural Network.
NCCL: biblioteca de comunicações coletivas da NVIDIA.

A versão do driver NVIDIA incluída é 525.105.17, que suporta CUDA 11.0.

Para as versões da biblioteca incluídas, consulte as notas sobre a versão para a versão específica do Databricks Runtime que você está usando.

Observação

Este software contém código-fonte fornecido pela NVIDIA Corporation. Especificamente, para oferecer suporte a GPUs, o Databricks inclui código de amostras CUDA.

Contrato de licença de usuário final da NVIDIA (EULA)

Ao selecionar uma “versão de Databricks Runtime ” habilitada para GPU no Databricks, você concorda implicitamente com os termos e condições descritos no EULA da NVIDIA com relação às bibliotecas CUDA, cuDNN e Tesla, e o Contrato de licença de usuário final da NVIDIA (com NCCL Suplemento) para a biblioteca NCCL.

Limitações

Não é possível criar uma nova GPU compute quando o senhor programa uma Job a partir de uma Notebook. O senhor pode executar um Job em uma GPU compute existente somente se ela tiver sido criada na nova UI compute .
Com Databricks on Google Cloud, os executáveis NVIDIA comumente usados, como nvidia-smi, não são incluídos na variável de ambiente PATH. Em vez disso, eles estão em /usr/local/nvidia/bin. Por exemplo, para usar nvidia-smi você deve usar o terminal web ou o %sh comando mágicoNotebook para executar /usr/local/nvidia/bin/nvidia-smi.
O monitoramento das métricas do compute usando o Ganglia não é compatível com o Databricks on Google Cloud.