Observeren

Definieer (benoemde) metrische gegevens om te observeren op het DataFrame. Deze methode retourneert een 'waargenomen' DataFrame dat hetzelfde resultaat retourneert als de invoer, met de volgende garanties: Hiermee worden de gedefinieerde aggregaties (metrische gegevens) berekend voor alle gegevens die op dat moment door de gegevensset stromen. De waarde van de gedefinieerde geaggregeerde kolommen wordt weergegeven zodra we een voltooiingspunt bereiken.

Syntaxis

observe(observation: Union["Observation", str], *exprs: Column)

Parameterwaarden

Kenmerk	Typ	Beschrijving
`observation`	Observatie of str	`str` om de naam of een `Observation` exemplaar op te geven om de metrische waarde op te halen.
`exprs`	Rubriek	kolomexpressies (kolom).

Retouren

DataFrame: het waargenomen DataFrame.

Aantekeningen

Wanneer observation is Observationdit, ondersteunt deze methode alleen batchquery's. Wanneer observation is een tekenreeks, werkt deze methode voor zowel batch- als streamingquery's. Continue uitvoering wordt momenteel nog niet ondersteund.

Examples

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19