Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Retorna uma nova DataFrame omissão de linhas com valores nulos ou NaN.
DataFrame.dropna e DataFrameNaFunctions.drop são aliases uns dos outros.
Sintaxe
drop(how='any', thresh=None, subset=None)
Parâmetros
| Parâmetro | Tipo | Descrição |
|---|---|---|
how |
str, opcional | Se deve remover uma linha se ela contiver nulos ou somente se todos os seus valores forem nulos. Os valores aceitos são 'any' (padrão) e 'all'. Se thresh for especificado, how será ignorado. |
thresh |
int, opcional | Se especificado, remova linhas que tenham menos do que thresh valores não nulos. Substitui.how |
subset |
str, tupla ou lista, opcional | Nomes de coluna a serem considerados ao verificar valores nulos ou NaN. |
Devoluções
DataFrame
Exemplos
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
Solte a linha se ela contiver qualquer valor nulo ou NaN.
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
Solte a linha somente se todos os seus valores forem nulos ou NaN.
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
Solte linhas que tenham menos valores não thresh nulos e não NaN.
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+
Solte linhas com valores nulos e NaN nas colunas especificadas.
df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+