Diagnosticando um estágio longo no Spark

começar identificando o estágio mais longo do Job. Role até a parte inferior da página Jobpara ver a lista de estágios e ordene-os por duração:

Detalhes de E/S do estágio

Para ver os dados de alto nível sobre o que esse estágio estava fazendo, observe as colunas Input, Output, leitura aleatória e gravação aleatória:

As colunas significam o seguinte:

Entrada: A quantidade de dados que esse estágio lê do armazenamento. Isso pode ser a leitura de Delta, Parquet, CSV, etc.
Saída: A quantidade de dados que esse estágio gravou no armazenamento. Isso pode ser gravado em Delta, Parquet, CSV, etc.
leitura aleatória: A quantidade de dados embaralhados lidos por esse estágio.
gravação aleatória: A quantidade de dados aleatórios que este estágio escreveu.

Se o senhor não sabe o que é shuffle, agora é um bom momento para aprender o que isso significa.

Anote esses números, pois o senhor provavelmente precisará deles mais tarde.

Número de tarefas

O número de tarefas no estágio longo pode indicar ao senhor a direção do seu problema. O senhor pode determinar o número de tarefas olhando aqui:

Se o senhor vir uma tarefa, isso pode ser sinal de um problema. Para obter mais informações, consulte One Spark tarefa.

Ver mais detalhes do palco

Se o estágio tiver mais de uma tarefa, o senhor deve investigar mais a fundo. Clique no link na descrição do estágio para obter mais informações sobre o estágio mais longo:

Agora que o senhor está na página do palco, consulte Skew and spill (Inclinação e derramamento).