describir

Calcula estadísticas básicas para columnas numéricas y de cadena.

Sintaxis

describe(*cols: Union[str, List[str]])

Parámetros

Parámetro Tipo Descripción
cols str, list, optional Nombre de columna o lista de nombres de columna que se describirán por (de forma predeterminada Todas las columnas).

Devoluciones

DataFrame: nuevo DataFrame que describe (proporciona estadísticas) dado DataFrame.

Notas

Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.

Use resumen para estadísticas expandidas y control sobre qué estadísticas se van a calcular.

Ejemplos

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# |  count|   3|
# |   mean|12.0|
# | stddev| 1.0|
# |    min|  11|
# |    max|  13|
# +-------+----+

df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+