dropDuplicates

Retourneer een nieuw DataFrame waarbij dubbele rijen zijn verwijderd, eventueel alleen rekening houdend met bepaalde kolommen.

Syntaxis

dropDuplicates(subset: Optional[List[str]] = None)

Parameterwaarden

Kenmerk Typ Beschrijving
subset lijst met kolomnamen, optioneel Lijst met kolommen die moeten worden gebruikt voor dubbele vergelijking (standaard alle kolommen).

Retouren

DataFrame: DataFrame zonder duplicaten.

Aantekeningen

Voor een statisch batch DataFrame worden alleen dubbele rijen verwijderd. Voor een streaming DataFrame worden alle gegevens in triggers bewaard als tussenliggende status om dubbele rijen te verwijderen. U kunt gebruiken withWatermark om te beperken hoe laat de dubbele gegevens kunnen zijn en het systeem beperkt de status dienovereenkomstig. Bovendien worden gegevens die ouder zijn dan watermerk verwijderd om mogelijke duplicaten te voorkomen.

Examples

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=10, height=80)
])

df.dropDuplicates().show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# |Alice| 10|    80|
# +-----+---+------+

df.dropDuplicates(['name', 'height']).show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# +-----+---+------+