Observer

Définissez les métriques (nommées) à observer sur le DataFrame. Cette méthode retourne un DataFrame « observé » qui retourne le même résultat que l’entrée, avec les garanties suivantes : elle calcule les agrégats définis (métriques) sur toutes les données qui transitent par le jeu de données à ce stade. Il signale la valeur des colonnes d’agrégation définies dès que nous atteignons un point d’achèvement.

Syntaxe

observe(observation: Union["Observation", str], *exprs: Column)

Paramètres

Paramètre Type Description
observation Observation ou str str pour spécifier le nom ou une Observation instance pour obtenir la métrique.
exprs Colonne expressions de colonne (colonne).

Retours

DataFrame: DataFrame observé.

Remarques

Quand observation c’est Observationle cas, cette méthode prend uniquement en charge les requêtes par lots. Lorsqu’il observation s’agit d’une chaîne, cette méthode fonctionne à la fois pour les requêtes de traitement par lots et de diffusion en continu. L’exécution continue n’est pas encore prise en charge.

Exemples

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}