Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Hittar vanliga objekt för kolumner, eventuellt med falska positiva identifieringar. Använder algoritmen för antal frekventa element som beskrivs av Karp, Schenker och Papadimitriou.
DataFrame.freqItems och DataFrameStatFunctions.freqItems är alias för varandra.
Syntax
freqItems(cols, support=None)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
cols |
lista eller tupl | Namnen på kolumnerna som ska beräknas frekventa objekt för. |
support |
float, valfritt | Hur ofta ett objekt ska övervägas. Standardvärdet är 1% (0,01). Måste vara större än 1e-4. |
Retur
DataFrame
Notes
Den här metoden är avsedd för undersökande dataanalys. Det finns ingen garanti för bakåtkompatibilitet för schemat för den resulterande DataFrame.
Exempel
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+