Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Returnerar ett nytt DataFrame utelämnande rader med null- eller NaN-värden.
DataFrame.dropna och DataFrameNaFunctions.drop är alias för varandra.
Syntax
drop(how='any', thresh=None, subset=None)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
how |
str, valfritt | Om du vill släppa en rad om den innehåller några null-värden eller bara om alla dess värden är null. Godkända värden är 'any' (standard) och 'all'. Om thresh anges how ignoreras. |
thresh |
int, valfritt | Om det anges släpper du rader som har färre än thresh icke-null-värden. Skriver howöver . |
subset |
str, tuppeln eller listan, valfritt | Kolumnnamn att tänka på när du söker efter null- eller NaN-värden. |
Retur
DataFrame
Exempel
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
Släpp raden om den innehåller något null- eller NaN-värde.
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
Släpp endast raden om alla dess värden är null eller NaN.
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
Ta bort rader som har färre än thresh icke-null- och icke-NaN-värden.
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+
Släpp rader med null- och NaN-värden i de angivna kolumnerna.
df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+