Trabalho falho ou executor removido
Portanto, o senhor está vendo um Job com falha ou um executor removido:
Os motivos mais comuns para a remoção do executor são:
autoscale: Nesse caso, isso é esperado e não é um erro. Consulte Ativar escala automática.
Perdas pontuais de instâncias: O provedor cloud está recuperando suas VMs. O senhor pode saber mais sobre as instâncias Spot aqui.
O executor está ficando sem memória
Trabalho fracassado
Se o senhor vir algum trabalho com falha, clique nele para acessar suas páginas. Em seguida, role para baixo para ver o estágio de falha e o motivo da falha:
O senhor pode receber um erro genérico. Clique no link na descrição para ver se o senhor pode obter mais informações:
Se o senhor rolar a página para baixo, poderá ver por que cada tarefa falhou. Nesse caso, está ficando claro que há um problema de memória:
Executor falho
Para descobrir por que o executor está falhando, o senhor deve primeiro verificar o compute Event log do site para ver se há alguma explicação para a falha do executor. Por exemplo, é possível que o senhor esteja usando instâncias spot e o provedor cloud as esteja aceitando de volta.
Veja se há algum evento que explique a perda do executor. Por exemplo, o senhor pode ver mensagens indicando que o cluster está sendo redimensionado ou que instâncias pontuais estão sendo perdidas.
Se o senhor estiver usando instâncias pontuais, consulte Perda de instâncias pontuais.
Se o seu compute foi redimensionado com a escala automática, isso é esperado e não é um erro. Consulte Saiba mais sobre o redimensionamento do site cluster .
Se o senhor não encontrar nenhuma informação no evento log, volte para o site Spark UI e clique no executor tab:
Aqui o senhor pode obter o logs do executor que falhou:
Próximo passo
Se o senhor chegou até aqui, a explicação mais provável é um problema de memória. O próximo passo é investigar os problemas de memória. Consulte Problemas de memória do Spark.