freqItems (DataFrameStatFunctions)

Hittar vanliga objekt för kolumner, eventuellt med falska positiva identifieringar. Använder algoritmen för antal frekventa element som beskrivs av Karp, Schenker och Papadimitriou. DataFrame.freqItems och DataFrameStatFunctions.freqItems är alias för varandra.

Syntax

freqItems(cols, support=None)

Parameters

Parameter Type Beskrivning
cols lista eller tupl Namnen på kolumnerna som ska beräknas frekventa objekt för.
support float, valfritt Hur ofta ett objekt ska övervägas. Standardvärdet är 1% (0,01). Måste vara större än 1e-4.

Retur

DataFrame

Notes

Den här metoden är avsedd för undersökande dataanalys. Det finns ingen garanti för bakåtkompatibilitet för schemat för den resulterande DataFrame.

Exempel

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+