Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Divide la salida por las columnas especificadas en el sistema de archivos. La salida se ha diseñado de forma similar al esquema de partición de Hive.
Sintaxis
partitionBy(*cols)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
*cols |
str o list | Nombres de las columnas por las que se va a crear particiones. |
Devoluciones
DataStreamWriter
Ejemplos
df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>
Particione una secuencia de origen de velocidad por marca de tiempo y escriba en Parquet:
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
q = df.writeStream.partitionBy(
"timestamp").format("parquet").option("checkpointLocation", cp).start(d)
time.sleep(5)
q.stop()
spark.read.schema(df.schema).parquet(d).show()