Observeren

Definieer (benoemde) metrische gegevens om te observeren op het DataFrame. Deze methode retourneert een 'waargenomen' DataFrame dat hetzelfde resultaat retourneert als de invoer, met de volgende garanties: Hiermee worden de gedefinieerde aggregaties (metrische gegevens) berekend voor alle gegevens die op dat moment door de gegevensset stromen. De waarde van de gedefinieerde geaggregeerde kolommen wordt weergegeven zodra we een voltooiingspunt bereiken.

Syntaxis

observe(observation: Union["Observation", str], *exprs: Column)

Parameterwaarden

Kenmerk Typ Beschrijving
observation Observatie of str str om de naam of een Observation exemplaar op te geven om de metrische waarde op te halen.
exprs Rubriek kolomexpressies (kolom).

Retouren

DataFrame: het waargenomen DataFrame.

Aantekeningen

Wanneer observation is Observationdit, ondersteunt deze methode alleen batchquery's. Wanneer observation is een tekenreeks, werkt deze methode voor zowel batch- als streamingquery's. Continue uitvoering wordt momenteel nog niet ondersteund.

Examples

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}