Beschrijven

Berekent basisstatistieken voor numerieke en tekenreekskolommen.

Syntaxis

describe(*cols: Union[str, List[str]])

Parameterwaarden

Kenmerk Typ Beschrijving
cols str, list, optional Kolomnaam of lijst met kolomnamen die moeten worden beschreven (standaard alle kolommen).

Retouren

DataFrame: Een nieuw DataFrame dat dataframe beschrijft (statistieken levert) op basis van DataFrame.

Aantekeningen

Deze functie is bedoeld voor experimentele gegevensanalyse, omdat we geen garantie bieden over de achterwaartse compatibiliteit van het schema van het resulterende DataFrame.

Gebruik samenvatting voor uitgebreide statistieken en controle over welke statistieken moeten worden berekend.

Examples

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# |  count|   3|
# |   mean|12.0|
# | stddev| 1.0|
# |    min|  11|
# |    max|  13|
# +-------+----+

df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+