Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Fönsterfunktion: returnerar den kumulativa fördelningen av värden i en fönsterpartition, dvs. bråket rader som ligger under den aktuella raden.
Syntax
from pyspark.sql import functions as sf
sf.cume_dist()
Parameterar
Den här funktionen tar inga parametrar.
Retur
pyspark.sql.Column: kolumnen för beräkning av kumulativ fördelning.
Examples
from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.createDataFrame([1, 2, 3, 3, 4], "int")
w = Window.orderBy("value")
df.withColumn("cd", sf.cume_dist().over(w)).show()
+-----+---+
|value| cd|
+-----+---+
| 1|0.2|
| 2|0.4|
| 3|0.8|
| 3|0.8|
| 4|1.0|
+-----+---+