Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Crea un objeto DataFrame a partir de , RDDuna lista, un pandas.DataFrame, o numpy.ndarray.pyarrow.Table
Sintaxis
createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
data |
RDD o iterable | Un RDD de cualquier tipo de representación de datos SQL (, , Row, , tuple, etc.) o , intbool, dicto list. pandas.DataFramenumpy.ndarraypyarrow.Table |
schema |
DataType, str o list, opcional | Un DataType, una cadena de tipo de datos o una lista de nombres de columna. Cuando se proporciona una lista de nombres de columna, el tipo de cada columna se deduce de data. Cuando None, el esquema se deduce de data (requiere Row, namedtupleo dict). Cuando se proporciona una DataType cadena de tipo de datos o , debe coincidir con los datos reales. |
samplingRatio |
float, opcional | Proporción de muestra de filas usadas para la inferencia de esquema cuando data es .RDD Si Nonees , se usan las primeras filas. |
verifySchema |
bool, opcional | Compruebe los tipos de datos de cada fila en el esquema. Habilitado de forma predeterminada. No se admite con la conversión pandas habilitada para pyarrow.Table entrada o flecha. |
Devoluciones
DataFrame
Notas
El uso con spark.sql.execution.arrow.pyspark.enabled=True es experimental.
Ejemplos
# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# | _1| _2|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# | 1|Alice|
# +---+-----+
# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
StructField("name", StringType(), True),
StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+
# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+