Trasformazioni Eventstream
I dati di streaming non elaborati arrivano raramente nel formato esatto necessario per l'analisi o l'azione. Le trasformazioni consentono di pulire, arricchire e modellare i dati prima di instradarli alle destinazioni, assicurando che ogni endpoint riceva i dati ottimizzati per lo scopo specifico.
Gli scenari di trasformazione comuni includono:
- Qualità dei dati: escludere dati non validi o incompleti prima dell'elaborazione
- Routing basato sul contenuto: instradare subset di dati diversi alle destinazioni appropriate in base ai valori di dati effettivi o al contenuto
- Arricchimento dei dati: aggiungere campi calcolati, rinominare le colonne per maggiore chiarezza o convertire i tipi di dati per la compatibilità downstream
- Aggregazione e riepilogo: calcolare i totali, le medie o i conteggi in esecuzione nelle finestre temporali per la visualizzazione del dashboard
- Standardizzazione del formato: garantire una struttura di dati coerente tra più origini dati prima di combinare i flussi
Trasformare i dati dell'evento
L'area di disegno eventstream consente di creare flussi di lavoro di elaborazione dei dati degli eventi. Eventstream offre diverse trasformazioni senza codice che è possibile trascinare nell'area di disegno:
- Filtro: filtra gli eventi in base al valore di un campo nell'input. Mantenere solo gli eventi che soddisfano condizioni specifiche. Ad esempio: temperatura > 80°, stato = "errore", tipo di cliente = "premium".
- Gestisci campi: questa trasformazione consente di aggiungere, rimuovere, modificare il tipo di dati o rinominare i campi provenienti da un input o da un'altra trasformazione. Aggiungere campi calcolati, rimuovere colonne non necessarie, rinominare campi o modificare i tipi di dati in base ai requisiti di destinazione.
- Aggregazione: usare la trasformazione di aggregazione per calcolare un'aggregazione (Sum, Minimum, Maximum o Average) ogni volta che si verifica un nuovo evento in un periodo di tempo. Questa operazione consente anche di rinominare le colonne calcolate e di filtrare l'aggregazione in base ad altre dimensioni nei dati. È possibile avere una o più aggregazioni nella stessa trasformazione.
- Raggruppa per: calcola le aggregazioni tra gli eventi all'interno di intervalli di tempo, ad esempio i totali delle vendite orarie o le medie della temperatura giornaliera. Questa trasformazione supporta diverse finestre temporali, tra cui finestre a cascata (intervalli fissi) e finestre scorrevoli (intervalli sovrapposti).
- Unione: usare la trasformazione unione per connettere due o più nodi nell'area di disegno eventi e aggiungere eventi con campi condivisi (con lo stesso nome e tipo di dati) in una tabella. I campi che non corrispondono vengono rimossi e non vengono inclusi nell'output.
- Join: combinare i dati da due flussi in base a una condizione di corrispondenza tra di essi.
- Espandi: usare questa trasformazione matrice per creare una nuova riga per ogni valore all'interno di una matrice.
Creare flussi di lavoro di trasformazione
Le trasformazioni possono essere usate insieme per creare pipeline di elaborazione dati. Ad esempio, se si dispone di un flusso di letture di temperatura dell'apparecchiatura, è possibile iniziare usando il filtro per rimuovere gli errori dei sensori dai dati IoT in ingresso. Successivamente, è possibile usare la gestione dei campi per aggiungere una colonna "priorità" calcolata in base alle soglie di temperatura. Quindi raggruppare per calcolare le medie orarie in base alla posizione. Infine, si instradano i dati elaborati alle destinazioni appropriate: i dati sulla temperatura a Fabric Activator per la valutazione delle regole e i riepiloghi orari a lakehouse per l'analisi cronologica.