Untersuchen der analytischen Datenverarbeitung

Abgeschlossen

Bei der analytischen Datenverarbeitung werden in der Regel schreibgeschützte (oder überwiegend schreibgeschützte) Systeme verwendet, die große Mengen historischer Daten oder Unternehmenskennzahlen speichern. Analysen können auf einer Momentaufnahme der Daten zu einem bestimmten Zeitpunkt oder auf einer Reihe von Momentaufnahmen basieren.

Die spezifischen Details für ein analytisches Verarbeitungssystem können je nach Lösung variieren, aber eine allgemeine Architektur für Analysen auf Unternehmensniveau sieht wie folgt aus:

Diagramm mit einer analytischen Datenbankarchitektur mit den unten beschriebenen nummerierten Elementen

  1. Betriebsdaten werden zur Analyse in einen Data Lake extrahiert, transformiert und geladen (ETL) – oder zunächst extrahiert und geladen, wobei die Transformationen erst anschließend angewendet werden, ein als ELT bezeichnetes Muster, das in modernen Lakehouses üblich ist.

  2. Daten werden in ein Schema von Tabellen geladen. In der Regel in einem Spark-basierten Data Lakehouse mit tabellarischen Abstraktionen über Dateien im Data Lake oder in einem Data Warehouse mit einem vollständig relationalen SQL-Modul.

  3. Daten im Data Warehouse können aggregiert und in ein OLAP-Modell (Online Analytical Processing) geladen werden – heute häufiger als semantisches Modell (und historisch als Würfel bezeichnet). Aggregierte numerische Werte (Measures) aus Faktentabellen werden für Schnittmengen von Dimensionen aus Dimensionstabellen berechnet. Beispielsweise kann sich der Umsatz nach Datum, Kunde und Produkt zusammenrechnen. Power BI semantischen Modelle sind das häufigste Beispiel, das Sie treffen werden.

  4. Die Daten im Data Lake, Data Warehouse und Analysemodell können abgefragt werden, um Berichte, Visualisierungen und Dashboards zu erstellen.

Data Lakes werden häufig in groß angelegten Datenanalyse-Szenarien eingesetzt, in denen eine große Menge an dateibasierten Daten gesammelt und analysiert werden muss.

Data Warehouses sind eine etablierte Möglichkeit zum Speichern von Daten in einem relationalen Schema, das für Lesevorgänge optimiert ist – in erster Linie Abfragen zur Unterstützung der Berichterstellung und Datenvisualisierung.

Data Lakehouses sind eine neuere Innovation, die die flexible und skalierbare Speicherung eines Data Lake mit der relationalen Abfragesemantik eines Data Warehouse kombiniert. Das Tabellenschema kann in einer OLTP-Datenquelle eine gewisse Denormalisierung der Daten erfordern (also das Einführen gewisser Duplizierungen, um Abfragen schneller auszuführen).

Ein OLAP-Modell (oder semantisches Modell) ist ein aggregierter Datenspeichertyp, der für analytische Workloads optimiert ist. Datenaggregationen sind dimensionenübergreifend auf unterschiedlichen Ebenen, sodass Sie einen Drillup/Down ausführen können, um Aggregationen auf mehreren hierarchischen Ebenen anzuzeigen; um z. B. den Gesamtumsatz nach Region, nach Ort oder für eine einzelne Adresse zu finden. Da die Daten voraggregiert sind, können Abfragen, um die darin enthaltenen Zusammenfassungen zurückzugeben, schnell ausgeführt werden.

Verschiedene Benutzertypen können Datenanalysen auf verschiedenen Stufen der Gesamtarchitektur ausführen. Beispiel:

  • Wissenschaftliche Fachkräfte für Daten arbeiten möglicherweise direkt mit Datendateien in einem Data Lake, um Daten zu untersuchen und zu modellieren.
  • Data Analysts fragen Tabellen möglicherweise direkt im Data Warehouse ab, um komplexe Berichte und Visualisierungen zu erstellen.
  • Geschäftsbenutzer verwenden möglicherweise vorab aggregierte Daten in einem Analysemodell in Form von Berichten oder Dashboards.

Moderne Analyseplattformen

Zwei "All-in-One"-Analyseplattformen dominieren auf Azure. Microsoft Fabric vereint OneLake (einen einzigen freigegebenen Datensee), Fabric Lakehouse, Fabric Warehouse, Fabric Data Factory und Power BI in einem einheitlichen SaaS-Arbeitsbereich. Azure Databricks ist eine Cloudanalyseplattform, die für Datenverarbeitung im großen Maßstab und Data Science entwickelt wurde und **Delta Lake – Parquet plus ein Transaktionsprotokoll, das Versionierung und ACID-Transaktionen ermöglicht – als Standardspeicherformat verwendet. Microsoft Purview bietet einheitliche Datensicherheit, Governance und Compliance, die Ihnen hilft, Daten in allen Datenquellen zu ermitteln, zu klassifizieren, zu schützen und zu verwalten.

Diagramm mit modernen Analyseplattformen Microsoft Fabric, Azure Databricks und Microsoft Purview.

Organisieren von Daten mit der Medallion-Architektur

Ein gängiges Muster zum Organisieren von Daten in einem Seehaus ist die Medallion-Architektur, die drei Ebenen verwendet:

  • Bronze: Rohdaten, die as-is aus Quellsystemen aufgenommen wurden, ohne Transformationen angewendet zu haben, wobei die ursprünglichen Datensätze für die Verarbeitung beibehalten werden.
  • Silber: gereinigte und konforme Daten, wobei Duplikate entfernt und Datentypen standardisiert sind.
  • Gold: Aggregierte, geschäftsfähige Daten, die für bestimmte Berichts- und Analyseanwendungsfälle modelliert wurden.

Diagramm, das eine Medallion-Architektur zeigt.

Teams verwenden dieses Muster, da sie klare Qualitätsgrenzen auf jeder Ebene erstellt, und Sie können Daten immer aus den ursprünglichen Bronze-Datensätzen verarbeiten, wenn sich die Anforderungen ändern.

Sowohl Fabric als auch Databricks umfassen Copilot Erfahrungen, mit denen Sie Daten mithilfe natürlicher Sprache erkunden können.