schema (DataStreamReader)

Anger indataschemat. Vissa datakällor (till exempel JSON) kan automatiskt härleda indataschemat från data. Om du anger schemat här kan datakällan hoppa över schemainferens och påskynda datainläsningen.

Syntax

schema(schema)

Parameters

Parameter Type Beskrivning
schema StructType eller str Ett StructType-objekt eller en DDL-formaterad sträng (till exempel col0 INT, col1 DOUBLE).

Retur

DataStreamReader

Exempel

from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>

Ange ett annat schema för en CSV-fil:

import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
    spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
    # root
    #  |-- col0: integer (nullable = true)
    #  |-- col1: string (nullable = true)