freqItems (DataFrame)

Hitta vanliga objekt för kolumner, eventuellt med falska positiva identifieringar. Använda algoritmen för antal frekventa element som beskrivs i "https://doi.org/10.1145/762471.762473, som föreslås av Karp, Schenker och Papadimitriou". DataFrame.freqItems och DataFrameStatFunctions.freqItems är alias.

Syntax

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parameters

Parameter Type Beskrivning
cols lista eller tupl Namnen på kolumnerna för att beräkna vanliga objekt för som en lista eller tuppeln med strängar.
support float, valfritt Hur ofta ett objekt ska övervägas "frekvent". Standardvärdet är 1%. Stödet måste vara större än 1e–4.

Retur

DataFrame: DataFrame med vanliga objekt.

Notes

Den här funktionen är avsedd för undersökande dataanalys, eftersom vi inte garanterar bakåtkompatibiliteten för schemat för den resulterande DataFrame.This function is meant for exploratory data analysis, as we make no guarantee about the back compatibility of the schema of the resulting DataFrame.

Exempel

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+