withColumn

Retourne un nouveau DataFrame en ajoutant une colonne ou en remplaçant la colonne existante portant le même nom.

Syntaxe

withColumn(colName: str, col: Column)

Paramètres

Paramètre Type Description
colName str chaîne, nom de la nouvelle colonne.
col Colonne expression column pour la nouvelle colonne.

Retours

DataFrame: DataFrame avec une colonne nouvelle ou remplacée.

Remarques

Cette méthode introduit une projection en interne. Par conséquent, l’appel plusieurs fois, par exemple, via des boucles afin d’ajouter plusieurs colonnes peut générer des plans volumineux qui peuvent provoquer des problèmes de performances et même StackOverflowException. Pour éviter cela, utilisez select plusieurs colonnes à la fois.

Exemples

df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
df.withColumn('age2', df.age + 2).show()
# +---+-----+----+
# |age| name|age2|
# +---+-----+----+
# |  2|Alice|   4|
# |  5|  Bob|   7|
# +---+-----+----+