Compartilhar via


drop (DataFrameNaFunctions)

Retorna uma nova DataFrame omissão de linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são aliases uns dos outros.

Sintaxe

drop(how='any', thresh=None, subset=None)

Parâmetros

Parâmetro Tipo Descrição
how str, opcional Se deve remover uma linha se ela contiver nulos ou somente se todos os seus valores forem nulos. Os valores aceitos são 'any' (padrão) e 'all'. Se thresh for especificado, how será ignorado.
thresh int, opcional Se especificado, remova linhas que tenham menos do que thresh valores não nulos. Substitui.how
subset str, tupla ou lista, opcional Nomes de coluna a serem considerados ao verificar valores nulos ou NaN.

Devoluções

DataFrame

Exemplos

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Solte a linha se ela contiver qualquer valor nulo ou NaN.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Solte a linha somente se todos os seus valores forem nulos ou NaN.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Solte linhas que tenham menos valores não thresh nulos e não NaN.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Solte linhas com valores nulos e NaN nas colunas especificadas.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+