dropna

Devuelve una nueva trama de datos que omite filas con valores NULL o NaN. DataFrame.dropna y DataFrameNaFunctions.drop son alias entre sí.

Sintaxis

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Parámetros

Parámetro Tipo Descripción
how str, opcional, predeterminado 'any' los valores que pueden ser "any" o "all". Si es "cualquiera", quite una fila si contiene valores NULL. Si es "all", quite una fila solo si todos sus valores son NULL.
thresh int, opcional, default None Si se especifica, quite las filas que tienen valores inferiores a thresh los que no son NULL. Esto sobrescribe el how parámetro .
subset str, tupla o lista, opcional lista opcional de nombres de columna que se deben tener en cuenta.

Devoluciones

DataFrame: DataFrame con solo filas nulas excluidas.

Ejemplos

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+