Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Définissez les métriques (nommées) à observer sur le DataFrame. Cette méthode retourne un DataFrame « observé » qui retourne le même résultat que l’entrée, avec les garanties suivantes : elle calcule les agrégats définis (métriques) sur toutes les données qui transitent par le jeu de données à ce stade. Il signale la valeur des colonnes d’agrégation définies dès que nous atteignons un point d’achèvement.
Syntaxe
observe(observation: Union["Observation", str], *exprs: Column)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
observation |
Observation ou str |
str pour spécifier le nom ou une Observation instance pour obtenir la métrique. |
exprs |
Colonne | expressions de colonne (colonne). |
Retours
DataFrame: DataFrame observé.
Remarques
Quand observation c’est Observationle cas, cette méthode prend uniquement en charge les requêtes par lots. Lorsqu’il observation s’agit d’une chaîne, cette méthode fonctionne à la fois pour les requêtes de traitement par lots et de diffusion en continu. L’exécution continue n’est pas encore prise en charge.
Exemples
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}