Trabalho falho ou executor removido

Portanto, o senhor está vendo um Job com falha ou um executor removido:

Empregos fracassados

Os motivos mais comuns para a remoção do executor são:

  • autoscale: Nesse caso, isso é esperado e não é um erro. Consulte Ativar escala automática.

  • Perdas pontuais de instâncias: O provedor cloud está recuperando suas VMs. O senhor pode saber mais sobre as instâncias Spot aqui.

  • O executor está ficando sem memória

Trabalho fracassado

Se o senhor vir algum trabalho com falha, clique nele para acessar suas páginas. Em seguida, role para baixo para ver o estágio de falha e o motivo da falha:

Motivo da falha

O senhor pode receber um erro genérico. Clique no link na descrição para ver se o senhor pode obter mais informações:

Descrição da falha

Se o senhor rolar a página para baixo, poderá ver por que cada tarefa falhou. Nesse caso, está ficando claro que há um problema de memória:

Falha na tarefa

Executor falho

Para descobrir por que o executor está falhando, o senhor deve primeiro verificar o compute Event log do site para ver se há alguma explicação para a falha do executor. Por exemplo, é possível que o senhor esteja usando instâncias spot e o provedor cloud as esteja aceitando de volta.

Registro de eventos

Veja se há algum evento que explique a perda do executor. Por exemplo, o senhor pode ver mensagens indicando que o cluster está sendo redimensionado ou que instâncias pontuais estão sendo perdidas.

Se o senhor não encontrar nenhuma informação no evento log, volte para o site Spark UI e clique no executor tab:

executor tab

Aqui o senhor pode obter o logs do executor que falhou:

Exemplo de executor com falha

Próximo passo

Se o senhor chegou até aqui, a explicação mais provável é um problema de memória. O próximo passo é investigar os problemas de memória. Consulte Problemas de memória do Spark.