Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Busca elementos frecuentes para las columnas, posiblemente con falsos positivos. Usa el algoritmo de recuento de elementos frecuente descrito por Karp, Schenker y Papadimitriou.
DataFrame.freqItems y DataFrameStatFunctions.freqItems son alias entre sí.
Sintaxis
freqItems(cols, support=None)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
cols |
lista o tupla | Nombres de las columnas para los que se van a calcular elementos frecuentes. |
support |
float, opcional | Frecuencia con la que se debe considerar frecuente un elemento. El valor predeterminado es 1% (0.01). Debe ser mayor que 1e-4. |
Devoluciones
DataFrame
Notas
Este método está diseñado para el análisis de datos exploratorios. No hay ninguna garantía de compatibilidad con versiones anteriores para el esquema del resultante DataFrame.
Ejemplos
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+