dropna

Retorna um novo DataFrame omitindo linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são aliases uns dos outros.

Sintaxe

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Parâmetros

Parâmetro	Tipo	Descrição
`how`	str, opcional, padrão 'any'	os valores que podem ser 'any' ou 'all'. Se 'any', solte uma linha se ela contiver quaisquer nulos. Se 'all', solte uma linha somente se todos os seus valores forem nulos.
`thresh`	int, opcional, padrão None	Se especificado, solte linhas que tenham valores menores que `thresh` não nulos. Isso substitui o `how` parâmetro.
`subset`	str, tupla ou lista, opcional	lista opcional de nomes de coluna a serem considerados.

Devoluções

DataFrame: DataFrame com somente linhas nulas excluídas.

Exemplos

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Comentários

Esta página foi útil?

Last updated on 2026-04-19