summary

Calcula las estadísticas especificadas para las columnas numéricas y de cadena. Las estadísticas disponibles son: count, mean, stddev, min, max, arbitrary approximate percentiles especificados como porcentaje (por ejemplo, 75%).

Sintaxis

summary(*statistics: str)

Parámetros

Parámetro Tipo Descripción
statistics str, opcional Nombres de columna para calcular las estadísticas de (de forma predeterminada Todas las columnas).

Devoluciones

DataFrame: nuevo dataframe que proporciona estadísticas para el dataframe especificado.

Notas

Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.

Ejemplos

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    25%|  11|              37.8|            142.2|
# |    50%|  12|              40.3|            142.3|
# |    75%|  13|              44.1|            150.5|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+

df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# |  count|  3|     3|     3|
# |    min| 11|  37.8| 142.2|
# |    25%| 11|  37.8| 142.2|
# |    75%| 13|  44.1| 150.5|
# |    max| 13|  44.1| 150.5|
# +-------+---+------+------+