schéma (DataStreamReader)

Spécifie le schéma d’entrée. Certaines sources de données (par exemple, JSON) peuvent déduire automatiquement le schéma d’entrée à partir de données. La spécification du schéma ici permet à la source de données d’ignorer l’inférence du schéma et d’accélérer le chargement des données.

Syntaxe

schema(schema)

Paramètres

Paramètre Type Description
schema StructType ou str Objet StructType ou chaîne au format DDL (par exemple). col0 INT, col1 DOUBLE

Retours

DataStreamReader

Exemples

from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>

Spécifiez un schéma différent pour un fichier CSV :

import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
    spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
    # root
    #  |-- col0: integer (nullable = true)
    #  |-- col1: string (nullable = true)