Observera

Definiera (namngivna) mått som ska observeras på DataFrame. Den här metoden returnerar en "observerad" dataram som returnerar samma resultat som indata, med följande garantier: Den beräknar de definierade aggregeringarna (måtten) på alla data som flödar genom datauppsättningen vid den tidpunkten. Den rapporterar värdet för de definierade aggregerade kolumnerna så snart vi når en slutförandepunkt.

Syntax

observe(observation: Union["Observation", str], *exprs: Column)

Parameters

Parameter Type Beskrivning
observation Observation eller str str för att ange namnet eller en Observation instans för att hämta måttet.
exprs Kolumn kolumnuttryck (kolumn).

Retur

DataFrame: den observerade DataFrame.

Notes

När observation är Observationstöder den här metoden endast batchfrågor. När observation är en sträng fungerar den här metoden för både batch- och strömningsfrågor. Kontinuerlig körning stöds för närvarande inte ännu.

Exempel

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}