drop (DataFrameNaFunctions)

Devuelve una nueva DataFrame omisión de filas con valores NULL o NaN. DataFrame.dropna y DataFrameNaFunctions.drop son alias entre sí.

Sintaxis

drop(how='any', thresh=None, subset=None)

Parámetros

Parámetro Tipo Descripción
how str, opcional Si se va a quitar una fila si contiene valores NULL o solo si todos sus valores son NULL. Los valores aceptados son 'any' (valor predeterminado) y 'all'. Si thresh se especifica , how se omite.
thresh int, opcional Si se especifica, quite filas que tengan menos de thresh valores que no NULL. Sobrescribe how.
subset str, tupla o lista, opcional Nombres de columna que se deben tener en cuenta al comprobar si hay valores NULL o NaN.

Devoluciones

DataFrame

Ejemplos

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Quite la fila si contiene cualquier valor Null o NaN.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Quite la fila solo si todos sus valores son NULL o NaN.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Quite las filas que tienen menos de valores null thresh y que no sean NaN.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Quite filas con valores NULL y NaN en las columnas especificadas.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+