Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Klusslar data efter de angivna kolumnerna för att optimera frågeprestanda.
Syntax
clusterBy(*cols)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
*cols |
str eller lista | Namnen på de kolumner som ska klustras efter. |
Retur
DataFrameWriter
Exempel
Skriv en DataFrame till en Parquet-fil med klustring.
import tempfile
with tempfile.TemporaryDirectory(prefix="clusterBy") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}, {"age": 120, "name": "Ruifeng Zheng"}]
).write.clusterBy("name").mode("overwrite").format("parquet").save(d)