kontrollpunkt

Returnerar en kontrollpunktsversion av dataramen. Kontrollpunkter kan användas för att trunkera den logiska planen för den här dataramen, vilket är särskilt användbart i iterativa algoritmer där planen kan växa exponentiellt. Den sparas i filer i kontrollpunktskataloguppsättningen med SparkContext.setCheckpointDireller spark.checkpoint.dir konfigurationen.

Syntax

checkpoint(eager: bool = True)

Parameters

Parameter Type Beskrivning
eager bool, valfritt, standard sant Om dataramen ska checkas in omedelbart.

Retur

DataFrame: DataFrame med kontrollpunkter.

Notes

Det här API:et är experimentellt.

Exempel

df = spark.createDataFrame([
    (14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"])
df.checkpoint(False)
# DataFrame[age: bigint, name: string]