Diagnosticar problemas de custo e desempenho usando o Spark UI

Este guia orienta o senhor sobre como usar o site Spark UI para diagnosticar problemas de custo e desempenho. É um guia passo a passo e um guia prático de como fazer. Em vez de fornecer apenas uma explicação sobre o que cada página do site Spark UI faz, ele informa o que o senhor deve procurar e o que isso significa. Se o senhor não estiver familiarizado com os conceitos de driver, worker, executor, estágios e tarefa, talvez queira rever a arquitetura Spark.

Se o senhor estiver procurando uma lista abrangente de várias ferramentas de otimização, use o guia de otimização da Databricks. As seções do guia de otimização são referenciadas neste guia do Spark UI.

Como usar este guia

Para navegar pelo guia, use os links incorporados em cada página para ser levado ao próximo passo. O guia contém os seguintes passos em ordem:

  1. Use o cronograma de trabalhos para identificar os principais problemas

  2. Veja o estágio mais longo

  3. Procure por inclinação ou derramamento

  4. Determinar se o estágio mais longo é limitado por E/S

  5. Procure outras causas para o tempo de execução lento do estágio

Vamos começar!

Como abrir o Spark UI

  1. Navegue até a página de seu cluster:

    Navegue até compute
  2. Clique em Spark UI:

    Navegue até o SparkUI

Próximo passo

Agora que o senhor abriu o site Spark UI, analise a linha do tempo do evento para saber mais sobre o seu pipeline ou consulta. Veja o cronograma de empregos.