Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Buscar elementos frecuentes para columnas, posiblemente con falsos positivos. Con el algoritmo de recuento de elementos frecuente descrito en "https://doi.org/10.1145/762471.762473, propuesto por Karp, Schenker y Papadimitriou".
DataFrame.freqItems y DataFrameStatFunctions.freqItems son alias.
Sintaxis
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
cols |
lista o tupla | Nombres de las columnas para calcular elementos frecuentes para como una lista o tupla de cadenas. |
support |
float, opcional | Frecuencia con la que se debe considerar un elemento "frecuente". El valor predeterminado es 1%. La compatibilidad debe ser mayor que 1e-4. |
Devoluciones
DataFrame: DataFrame con elementos frecuentes.
Notas
Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.
Ejemplos
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+