Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Defina as métricas (nomeadas) a serem observadas no DataFrame. Esse método retorna um DataFrame 'observado' que retorna o mesmo resultado da entrada, com as seguintes garantias: ele calculará as agregações definidas (métricas) em todos os dados que estão fluindo pelo conjunto de dados nesse ponto. Ele relatará o valor das colunas de agregação definidas assim que chegarmos a um ponto de conclusão.
Sintaxe
observe(observation: Union["Observation", str], *exprs: Column)
Parâmetros
| Parâmetro | Tipo | Descrição |
|---|---|---|
observation |
Observação ou str |
str para especificar o nome ou uma Observation instância para obter a métrica. |
exprs |
Coluna | expressões de coluna (Coluna). |
Devoluções
DataFrame: o DataFrame observado.
Observações
Quando observation é Observation, esse método só dá suporte a consultas em lote. Quando observation é uma cadeia de caracteres, esse método funciona para consultas em lote e streaming. A execução contínua ainda não tem suporte.
Exemplos
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}