drop (DataFrameNaFunctions)

Returnerar ett nytt DataFrame utelämnande rader med null- eller NaN-värden. DataFrame.dropna och DataFrameNaFunctions.drop är alias för varandra.

Syntax

drop(how='any', thresh=None, subset=None)

Parameters

Parameter Type Beskrivning
how str, valfritt Om du vill släppa en rad om den innehåller några null-värden eller bara om alla dess värden är null. Godkända värden är 'any' (standard) och 'all'. Om thresh anges how ignoreras.
thresh int, valfritt Om det anges släpper du rader som har färre än thresh icke-null-värden. Skriver howöver .
subset str, tuppeln eller listan, valfritt Kolumnnamn att tänka på när du söker efter null- eller NaN-värden.

Retur

DataFrame

Exempel

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Släpp raden om den innehåller något null- eller NaN-värde.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Släpp endast raden om alla dess värden är null eller NaN.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Ta bort rader som har färre än thresh icke-null- och icke-NaN-värden.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Släpp rader med null- och NaN-värden i de angivna kolumnerna.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+