Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Calcula estadísticas básicas para columnas numéricas y de cadena.
Sintaxis
describe(*cols: Union[str, List[str]])
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
cols |
str, list, optional | Nombre de columna o lista de nombres de columna que se describirán por (de forma predeterminada Todas las columnas). |
Devoluciones
DataFrame: nuevo DataFrame que describe (proporciona estadísticas) dado DataFrame.
Notas
Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.
Use resumen para estadísticas expandidas y control sobre qué estadísticas se van a calcular.
Ejemplos
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# | count| 3|
# | mean|12.0|
# | stddev| 1.0|
# | min| 11|
# | max| 13|
# +-------+----+
df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+