union

Retourne un nouveau DataFrame contenant l’union de lignes dans ce dataFrame et un autre DataFrame.

Syntaxe

union(other: "DataFrame")

Paramètres

Paramètre Type Description
other DataFrame Un autre DataFrame devant être unionné.

Retours

DataFrame: nouveau DataFrame contenant les lignes combinées avec les colonnes correspondantes.

Remarques

Cette méthode effectue une union de jeu de styles SQL des lignes des deux DataFrame objets, sans déduplication automatique d’éléments.

Utilisez la méthode pour effectuer la distinct() déduplication des lignes.

La méthode résout les colonnes par position (et non par nom), en suivant le comportement standard dans SQL.

Exemples

df1 = spark.createDataFrame([(1, 'A'), (2, 'B')], ['id', 'value'])
df2 = spark.createDataFrame([(3, 'C'), (4, 'D')], ['id', 'value'])
df3 = df1.union(df2)
df3.show()
# +---+-----+
# | id|value|
# +---+-----+
# |  1|    A|
# |  2|    B|
# |  3|    C|
# |  4|    D|
# +---+-----+

df1 = spark.createDataFrame([(1, 'A'), (2, 'B'), (3, 'C')], ['id', 'value'])
df2 = spark.createDataFrame([(3, 'C'), (4, 'D')], ['id', 'value'])
df3 = df1.union(df2).distinct().sort("id")
df3.show()
# +---+-----+
# | id|value|
# +---+-----+
# |  1|    A|
# |  2|    B|
# |  3|    C|
# |  4|    D|
# +---+-----+