Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Berekent de opgegeven statistieken voor numerieke en tekenreekskolommen. Beschikbare statistieken zijn: aantal, gemiddelde, stddev, min, max, willekeurige percentielen opgegeven als percentage (bijvoorbeeld 75%).
Syntaxis
summary(*statistics: str)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
statistics |
str, optioneel | Kolomnamen voor het berekenen van statistieken (standaard alle kolommen). |
Retouren
DataFrame: Een nieuw DataFrame dat statistieken biedt voor het opgegeven DataFrame.
Aantekeningen
Deze functie is bedoeld voor experimentele gegevensanalyse, omdat we geen garantie bieden over de achterwaartse compatibiliteit van het schema van het resulterende DataFrame.
Examples
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 50%| 12| 40.3| 142.3|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+
df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# | count| 3| 3| 3|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+---+------+------+