Compartilhar via


dropna

Retorna um novo DataFrame omitindo linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são aliases uns dos outros.

Sintaxe

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Parâmetros

Parâmetro Tipo Descrição
how str, opcional, padrão 'any' os valores que podem ser 'any' ou 'all'. Se 'any', solte uma linha se ela contiver quaisquer nulos. Se 'all', solte uma linha somente se todos os seus valores forem nulos.
thresh int, opcional, padrão None Se especificado, solte linhas que tenham valores menores que thresh não nulos. Isso substitui o how parâmetro.
subset str, tupla ou lista, opcional lista opcional de nomes de coluna a serem considerados.

Devoluções

DataFrame: DataFrame com somente linhas nulas excluídas.

Exemplos

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+