createDataFrame

Crea un objeto DataFrame a partir de , RDDuna lista, un pandas.DataFrame, o numpy.ndarray.pyarrow.Table

Sintaxis

createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)

Parámetros

Parámetro Tipo Descripción
data RDD o iterable Un RDD de cualquier tipo de representación de datos SQL (, , Row, , tuple, etc.) o , intbool, dicto list. pandas.DataFramenumpy.ndarraypyarrow.Table
schema DataType, str o list, opcional Un DataType, una cadena de tipo de datos o una lista de nombres de columna. Cuando se proporciona una lista de nombres de columna, el tipo de cada columna se deduce de data. Cuando None, el esquema se deduce de data (requiere Row, namedtupleo dict). Cuando se proporciona una DataType cadena de tipo de datos o , debe coincidir con los datos reales.
samplingRatio float, opcional Proporción de muestra de filas usadas para la inferencia de esquema cuando data es .RDD Si Nonees , se usan las primeras filas.
verifySchema bool, opcional Compruebe los tipos de datos de cada fila en el esquema. Habilitado de forma predeterminada. No se admite con la conversión pandas habilitada para pyarrow.Table entrada o flecha.

Devoluciones

DataFrame

Notas

El uso con spark.sql.execution.arrow.pyspark.enabled=True es experimental.

Ejemplos

# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# |   _1| _2|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  1|Alice|
# +---+-----+

# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+

# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+