freqItems (DataFrameStatFunctions)

Hittar vanliga objekt för kolumner, eventuellt med falska positiva identifieringar. Använder algoritmen för antal frekventa element som beskrivs av Karp, Schenker och Papadimitriou. DataFrame.freqItems och DataFrameStatFunctions.freqItems är alias för varandra.

Syntax

freqItems(cols, support=None)

Parameters

Parameter	Type	Beskrivning
`cols`	lista eller tupl	Namnen på kolumnerna som ska beräknas frekventa objekt för.
`support`	float, valfritt	Hur ofta ett objekt ska övervägas. Standardvärdet är 1% (0,01). Måste vara större än 1e-4.

Retur

DataFrame

Notes

Den här metoden är avsedd för undersökande dataanalys. Det finns ingen garanti för bakåtkompatibilitet för schemat för den resulterande DataFrame.

Exempel

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-19