Observera

Definiera (namngivna) mått som ska observeras på DataFrame. Den här metoden returnerar en "observerad" dataram som returnerar samma resultat som indata, med följande garantier: Den beräknar de definierade aggregeringarna (måtten) på alla data som flödar genom datauppsättningen vid den tidpunkten. Den rapporterar värdet för de definierade aggregerade kolumnerna så snart vi når en slutförandepunkt.

Syntax

observe(observation: Union["Observation", str], *exprs: Column)

Parameters

Parameter	Type	Beskrivning
`observation`	Observation eller str	`str` för att ange namnet eller en `Observation` instans för att hämta måttet.
`exprs`	Kolumn	kolumnuttryck (kolumn).

Retur

DataFrame: den observerade DataFrame.

Notes

När observation är Observationstöder den här metoden endast batchfrågor. När observation är en sträng fungerar den här metoden för både batch- och strömningsfrågor. Kontinuerlig körning stöds för närvarande inte ännu.

Exempel

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-19