recueillir

Retourne tous les enregistrements dans le DataFrame sous la forme d’une liste de Row.

Syntaxe

collect()

Retours

list : liste d’objets Row , chacune représentant une ligne dans le DataFrame.

Remarques

Cette méthode ne doit être utilisée que si la liste résultante est censée être petite, car toutes les données sont chargées dans la mémoire du pilote.

Exemples

df = spark.createDataFrame([(14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"])
df.collect()
# [Row(age=14, name='Tom'), Row(age=23, name='Alice'), Row(age=16, name='Bob')]

df.filter(df.age > 15).collect()
# [Row(age=23, name='Alice'), Row(age=16, name='Bob')]

df.select("name").collect()
# [Row(name='Tom'), Row(name='Alice'), Row(name='Bob')]

from pyspark.sql.functions import upper
df.select(upper(df.name)).collect()
# [Row(upper(name)='TOM'), Row(upper(name)='ALICE'), Row(upper(name)='BOB')]

rows = df.collect()
[row["name"] for row in rows]
# ['Tom', 'Alice', 'Bob']

[row.asDict() for row in rows]
# [{'age': 14, 'name': 'Tom'}, {'age': 23, 'name': 'Alice'}, {'age': 16, 'name': 'Bob'}]