Jobs falhando ou executores removidos

Portanto, você está vendo trabalhos com falha ou executores removidos:

Trabalhos com falha

Os motivos mais comuns para a remoção de executores são:

  • Dimensionamento automático: nesse caso, isso é esperado e não é considerado um erro. Veja Habilitar escalonamento automático.
  • Perdas pontuais de instâncias: o provedor de nuvem está recuperando suas VMs. Você pode aprender mais sobre instâncias spot aqui.
  • Executores estão ficando sem memória

Trabalhos com falha

Se você detectar algum trabalho com falha, clique nele para acessar as páginas dele. Em seguida, role para baixo para ver o estágio com falha e o motivo da falha:

Motivo da Falha

Você pode receber um erro genérico. Clique no link na descrição para ver se você pode obter mais informações:

Falha na Descrição

Se você rolar para baixo nessa página, poderá ver por que cada tarefa falhou. Nesse caso, está ficando claro que há um problema de memória:

Tarefas com Falha

Executores com falha

Para descobrir por que seus executores estão falhando, primeiro você desejará verificar o log de eventos da computação para ver se há alguma explicação sobre por que os executores falharam. Por exemplo, é possível que você esteja usando instâncias spot e o provedor de nuvem esteja levando-as de volta.

Log de Eventos

Veja se há algum evento que explique a perda de executores. Por exemplo, você poderá ver mensagens indicando que o cluster está sendo redimensionado ou que as instâncias spot estão sendo perdidas.

Se você não vir nenhuma informação no log de eventos, navegue de volta para a interface do usuário do Spark e clique na guia Executores :

Guia Executores

Aqui você pode obter os logs dos executores falhados:

Exemplo de executores com falha

Próxima etapa

Se você chegou até aqui, a explicação mais provável é um problema de memória. A próxima etapa é investigar os problemas de memória. Veja Problemas de memória Spark.