drop (DataFrameNaFunctions)

Retourne une nouvelle DataFrame ligne omettant des valeurs Null ou NaN. DataFrame.dropna et DataFrameNaFunctions.drop sont des alias les uns des autres.

Syntaxe

drop(how='any', thresh=None, subset=None)

Paramètres

Paramètre Type Description
how str, facultatif Indique s’il faut supprimer une ligne si elle contient des valeurs Null ou uniquement si toutes ses valeurs sont null. Les valeurs acceptées sont 'any' (par défaut) et 'all'. Si thresh elle est spécifiée, how elle est ignorée.
thresh int, facultatif Si elle est spécifiée, supprimez les lignes qui ont moins de thresh valeurs non null. Remplace .how
subset str, tuple ou list, facultatif Noms de colonnes à prendre en compte lors de la vérification des valeurs Null ou NaN.

Retours

DataFrame

Exemples

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Supprimez la ligne si elle contient une valeur Null ou NaN.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Supprimez la ligne uniquement si toutes ses valeurs sont null ou NaN.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Supprimez les lignes qui ont moins de thresh valeurs non null et non NaN.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Supprimez des lignes avec des valeurs Null et NaN dans les colonnes spécifiées.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+