Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Definiera (namngivna) mått som ska observeras på DataFrame. Den här metoden returnerar en "observerad" dataram som returnerar samma resultat som indata, med följande garantier: Den beräknar de definierade aggregeringarna (måtten) på alla data som flödar genom datauppsättningen vid den tidpunkten. Den rapporterar värdet för de definierade aggregerade kolumnerna så snart vi når en slutförandepunkt.
Syntax
observe(observation: Union["Observation", str], *exprs: Column)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
observation |
Observation eller str |
str för att ange namnet eller en Observation instans för att hämta måttet. |
exprs |
Kolumn | kolumnuttryck (kolumn). |
Retur
DataFrame: den observerade DataFrame.
Notes
När observation är Observationstöder den här metoden endast batchfrågor. När observation är en sträng fungerar den här metoden för både batch- och strömningsfrågor. Kontinuerlig körning stöds för närvarande inte ännu.
Exempel
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}