samenvatting

Berekent de opgegeven statistieken voor numerieke en tekenreekskolommen. Beschikbare statistieken zijn: aantal, gemiddelde, stddev, min, max, willekeurige percentielen opgegeven als percentage (bijvoorbeeld 75%).

Syntaxis

summary(*statistics: str)

Parameterwaarden

Kenmerk Typ Beschrijving
statistics str, optioneel Kolomnamen voor het berekenen van statistieken (standaard alle kolommen).

Retouren

DataFrame: Een nieuw DataFrame dat statistieken biedt voor het opgegeven DataFrame.

Aantekeningen

Deze functie is bedoeld voor experimentele gegevensanalyse, omdat we geen garantie bieden over de achterwaartse compatibiliteit van het schema van het resulterende DataFrame.

Examples

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    25%|  11|              37.8|            142.2|
# |    50%|  12|              40.3|            142.3|
# |    75%|  13|              44.1|            150.5|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+

df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# |  count|  3|     3|     3|
# |    min| 11|  37.8| 142.2|
# |    25%| 11|  37.8| 142.2|
# |    75%| 13|  44.1| 150.5|
# |    max| 13|  44.1| 150.5|
# +-------+---+------+------+