Comment déterminer si Spark réécrit des données

Tout d’abord, ouvrez le DAG SQL pour votre phase d’écriture. Faites défiler vers le haut de la page du travail, puis cliquez sur la requête SQL associée :

Étape vers SQL

Vous devez maintenant voir le DAG. Si ce n’est pas le cas, faites défiler un peu et vous devriez le voir :

SQL DAG

Si vous effectuez une opération de suppression ou de mise à jour, examinez la quantité de données écrites par le processus d'écriture par rapport à ce que vous attendez. Si vous voyez beaucoup plus de données écrites que prévu, vous réécritez probablement des données :

Statistiques d’écriture

Si vous effectuez une fusion, le nœud de fusion a des statistiques explicites sur la quantité de données qu’il réécrit.