Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Retourne un nouveau DataFrame omettant des lignes avec des valeurs Null ou NaN.
DataFrame.dropna et DataFrameNaFunctions.drop sont des alias les uns des autres.
Syntaxe
dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
how |
str, facultatif, par défaut 'any' | valeurs qui peuvent être « any » ou « all ». Si « any », supprimez une ligne s’il contient des valeurs Null. Si « all », supprimez une ligne uniquement si toutes ses valeurs sont null. |
thresh |
int, optional, default None | Si elle est spécifiée, supprimez les lignes qui ont des valeurs inférieures à thresh non Null. Cela remplace le how paramètre. |
subset |
str, tuple ou list, facultatif | liste facultative des noms de colonnes à prendre en compte. |
Retours
DataFrame: DataFrame avec des lignes null uniquement exclues.
Exemples
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+