Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Hitta vanliga objekt för kolumner, eventuellt med falska positiva identifieringar. Använda algoritmen för antal frekventa element som beskrivs i "https://doi.org/10.1145/762471.762473, som föreslås av Karp, Schenker och Papadimitriou".
DataFrame.freqItems och DataFrameStatFunctions.freqItems är alias.
Syntax
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
cols |
lista eller tupl | Namnen på kolumnerna för att beräkna vanliga objekt för som en lista eller tuppeln med strängar. |
support |
float, valfritt | Hur ofta ett objekt ska övervägas "frekvent". Standardvärdet är 1%. Stödet måste vara större än 1e–4. |
Retur
DataFrame: DataFrame med vanliga objekt.
Notes
Den här funktionen är avsedd för undersökande dataanalys, eftersom vi inte garanterar bakåtkompatibiliteten för schemat för den resulterande DataFrame.This function is meant for exploratory data analysis, as we make no guarantee about the back compatibility of the schema of the resulting DataFrame.
Exempel
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+