verzamelen

Retourneert alle records in het DataFrame als een lijst met Row.

Syntaxis

collect()

Retouren

lijst: Een lijst Row met objecten, die elk een rij in het DataFrame vertegenwoordigen.

Aantekeningen

Deze methode mag alleen worden gebruikt als de resulterende lijst naar verwachting klein is, omdat alle gegevens in het geheugen van het stuurprogramma worden geladen.

Examples

df = spark.createDataFrame([(14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"])
df.collect()
# [Row(age=14, name='Tom'), Row(age=23, name='Alice'), Row(age=16, name='Bob')]

df.filter(df.age > 15).collect()
# [Row(age=23, name='Alice'), Row(age=16, name='Bob')]

df.select("name").collect()
# [Row(name='Tom'), Row(name='Alice'), Row(name='Bob')]

from pyspark.sql.functions import upper
df.select(upper(df.name)).collect()
# [Row(upper(name)='TOM'), Row(upper(name)='ALICE'), Row(upper(name)='BOB')]

rows = df.collect()
[row["name"] for row in rows]
# ['Tom', 'Alice', 'Bob']

[row.asDict() for row in rows]
# [{'age': 14, 'name': 'Tom'}, {'age': 23, 'name': 'Alice'}, {'age': 16, 'name': 'Bob'}]