Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Definieer (benoemde) metrische gegevens om te observeren op het DataFrame. Deze methode retourneert een 'waargenomen' DataFrame dat hetzelfde resultaat retourneert als de invoer, met de volgende garanties: Hiermee worden de gedefinieerde aggregaties (metrische gegevens) berekend voor alle gegevens die op dat moment door de gegevensset stromen. De waarde van de gedefinieerde geaggregeerde kolommen wordt weergegeven zodra we een voltooiingspunt bereiken.
Syntaxis
observe(observation: Union["Observation", str], *exprs: Column)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
observation |
Observatie of str |
str om de naam of een Observation exemplaar op te geven om de metrische waarde op te halen. |
exprs |
Rubriek | kolomexpressies (kolom). |
Retouren
DataFrame: het waargenomen DataFrame.
Aantekeningen
Wanneer observation is Observationdit, ondersteunt deze methode alleen batchquery's. Wanneer observation is een tekenreeks, werkt deze methode voor zowel batch- als streamingquery's. Continue uitvoering wordt momenteel nog niet ondersteund.
Examples
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}