Diagnosticar problemas de custo e desempenho usando o Spark UI
Este guia orienta o senhor sobre como usar o site Spark UI para diagnosticar problemas de custo e desempenho. É um guia passo a passo e um guia prático de como fazer. Em vez de fornecer apenas uma explicação sobre o que cada página do site Spark UI faz, ele informa o que o senhor deve procurar e o que isso significa. Se o senhor não estiver familiarizado com os conceitos de driver, worker, executor, estágios e tarefa, talvez queira rever a arquitetura Spark.
Se o senhor estiver procurando uma lista abrangente de várias ferramentas de otimização, use o guia de otimização da Databricks. As seções do guia de otimização são referenciadas neste guia do Spark UI.
Como usar este guia
Para navegar pelo guia, use os links incorporados em cada página para ser levado ao próximo passo. O guia contém os seguintes passos em ordem:
Use o cronograma de trabalhos para identificar os principais problemas
Procure outras causas para o tempo de execução lento do estágio
Vamos começar!
Próximo passo
Agora que o senhor abriu o site Spark UI, analise a linha do tempo do evento para saber mais sobre o seu pipeline ou consulta. Veja o cronograma de empregos.