Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Returnerar en ny DataFrame som utelämnar rader med null- eller NaN-värden.
DataFrame.dropna och DataFrameNaFunctions.drop är alias för varandra.
Syntax
dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
how |
str, valfritt, standard "any" | värden som kan vara "alla" eller "alla". Om det är "någon" släpper du en rad om den innehåller några null-värden. Om "alla" släpper du bara en rad om alla dess värden är null. |
thresh |
int, optional, default None | Om det anges släpper du rader som har mindre än thresh icke-null-värden. Detta skriver över parametern how . |
subset |
str, tuppeln eller listan, valfritt | valfri lista över kolumnnamn att överväga. |
Retur
DataFrame: DataFrame med endast null-rader undantagna.
Exempel
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+