createDataFrame

Crea un objeto DataFrame a partir de , RDDuna lista, un pandas.DataFrame, o numpy.ndarray.pyarrow.Table

Sintaxis

createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)

Parámetros

Parámetro	Tipo	Descripción
`data`	RDD o iterable	Un RDD de cualquier tipo de representación de datos SQL (, , `Row`, , `tuple`, etc.) o , `intbool`, `dict`o `list`. `pandas.DataFramenumpy.ndarraypyarrow.Table`
`schema`	DataType, str o list, opcional	Un `DataType`, una cadena de tipo de datos o una lista de nombres de columna. Cuando se proporciona una lista de nombres de columna, el tipo de cada columna se deduce de `data`. Cuando `None`, el esquema se deduce de `data` (requiere `Row`, `namedtuple`o `dict`). Cuando se proporciona una `DataType` cadena de tipo de datos o , debe coincidir con los datos reales.
`samplingRatio`	float, opcional	Proporción de muestra de filas usadas para la inferencia de esquema cuando `data` es .`RDD` Si `None`es , se usan las primeras filas.
`verifySchema`	bool, opcional	Compruebe los tipos de datos de cada fila en el esquema. Habilitado de forma predeterminada. No se admite con la conversión pandas habilitada para `pyarrow.Table` entrada o flecha.

Devoluciones

DataFrame

Notas

El uso con spark.sql.execution.arrow.pyspark.enabled=True es experimental.

Ejemplos

# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# |   _1| _2|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  1|Alice|
# +---+-----+

# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+

# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-22