escalar

Devuelve un Column objeto para una subconsulta SCALAR que contiene exactamente una fila y una columna.

Sintaxis

scalar()

Devoluciones

Column Column: objeto que representa una subconsulta SCALAR.

Notas

El scalar() método es útil para extraer un Column objeto que representa un valor escalar de un dataframe, especialmente cuando el dataframe resulta de un cálculo de agregación o valor único. A continuación, este valor devuelto Column se puede usar directamente en select cláusulas o como predicados en filtros en el dataframe externo, lo que permite el filtrado dinámico de datos y los cálculos basados en valores escalares.

Ejemplos

data = [
    (1, "Alice", 45000, 101), (2, "Bob", 54000, 101), (3, "Charlie", 29000, 102),
    (4, "David", 61000, 102), (5, "Eve", 48000, 101),
]
employees = spark.createDataFrame(data, ["id", "name", "salary", "department_id"])

from pyspark.sql import functions as sf
employees.where(
    sf.col("salary") > employees.select(sf.avg("salary")).scalar()
).select("name", "salary", "department_id").orderBy("name").show()
# +-----+------+-------------+
# | name|salary|department_id|
# +-----+------+-------------+
# |  Bob| 54000|          101|
# |David| 61000|          102|
# |  Eve| 48000|          101|
# +-----+------+-------------+

employees.alias("e1").where(
    sf.col("salary")
    > employees.alias("e2").where(
        sf.col("e2.department_id") == sf.col("e1.department_id").outer()
    ).select(sf.avg("salary")).scalar()
).select("name", "salary", "department_id").orderBy("name").show()
# +-----+------+-------------+
# | name|salary|department_id|
# +-----+------+-------------+
# |  Bob| 54000|          101|
# |David| 61000|          102|
# +-----+------+-------------+

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19