Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Retourneer een nieuw DataFrame waarbij dubbele rijen zijn verwijderd, eventueel alleen rekening houdend met bepaalde kolommen.
Syntaxis
dropDuplicates(subset: Optional[List[str]] = None)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
subset |
lijst met kolomnamen, optioneel | Lijst met kolommen die moeten worden gebruikt voor dubbele vergelijking (standaard alle kolommen). |
Retouren
DataFrame: DataFrame zonder duplicaten.
Aantekeningen
Voor een statisch batch DataFrame worden alleen dubbele rijen verwijderd. Voor een streaming DataFrame worden alle gegevens in triggers bewaard als tussenliggende status om dubbele rijen te verwijderen. U kunt gebruiken withWatermark om te beperken hoe laat de dubbele gegevens kunnen zijn en het systeem beperkt de status dienovereenkomstig. Bovendien worden gegevens die ouder zijn dan watermerk verwijderd om mogelijke duplicaten te voorkomen.
Examples
from pyspark.sql import Row
df = spark.createDataFrame([
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=10, height=80)
])
df.dropDuplicates().show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice| 5| 80|
# |Alice| 10| 80|
# +-----+---+------+
df.dropDuplicates(['name', 'height']).show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice| 5| 80|
# +-----+---+------+