Grundlegendes zu Data Warehouses

Abgeschlossen

Ein data warehouse ist ein zentraler, strukturierter Speicher, der für analytische Abfragen und Berichte entwickelt wurde. Im Gegensatz zu operativen Datenbanken, die tägliche Geschäftstransaktionen verarbeiten, konsolidiert ein data warehouse Daten aus mehreren Quellen in einem für die Analyse optimierten Format.

Das Erstellen einer modernen data warehouse umfasst in der Regel Folgendes:

  • Datenaufnahme – Verschieben von Daten aus Quellsystemen in das Lager.
  • Data storage – Speichern der Daten in einem für Analysen optimierten Format.
  • Datenverarbeitung – Transformieren der Daten in ein Format, das von Analysetools verwendet werden kann.
  • Datenanalyse und -übermittlung – Analysieren der Daten, um Erkenntnisse zu gewinnen und sie dem Unternehmen zu liefern.

Entwerfen eines data warehouse

Data Warehouses enthalten Tabellen, die in einem Schema organisiert sind, das für die mehrdimensionale Modellierung optimiert ist. In diesem Ansatz gruppieren Sie numerische Daten im Zusammenhang mit Ereignissen nach verschiedenen Attributen. Sie können beispielsweise den Gesamtbetrag analysieren, der für Bestellungen an einem bestimmten Datum oder in einer bestimmten Filiale bezahlt wurde.

Tabellen in einem Datenlager

Sie organisieren data warehouse Tabellen, um eine effiziente Analyse großer Datenmengen zu unterstützen. Diese Organisation, die als dimensionale Modellierung bezeichnet wird, umfasst die Strukturierung von Tabellen in Faktentabellen und Bemaßungstabellen.

Faktentabellen enthalten die numerischen Daten, die Sie analysieren möchten. Faktentabellen umfassen in der Regel eine große Anzahl von Zeilen und sind die primäre Datenquelle für die Analyse. Beispielsweise kann eine Faktentabelle den Gesamtbetrag enthalten, der für Bestellungen an einem bestimmten Datum oder in einer bestimmten Filiale bezahlt wurde.

Dimensionstabellen enthalten beschreibende Informationen zu den Daten in den Faktentabellen. Bemaßungstabellen verfügen in der Regel über ein paar Zeilen und stellen Kontext für die Daten in den Faktentabellen bereit. Beispielsweise kann eine Dimensionstabelle Informationen zu den Kunden enthalten, die Bestellungen aufgegeben haben.

Zusätzlich zu Attributspalten enthält eine Dimensionstabelle eine eindeutige Schlüsselspalte, die jede Zeile in der Tabelle eindeutig identifiziert. In der Tat ist es üblich, dass eine Dimensionstabelle zwei Schlüsselspalten enthält:

  • Ein Ersatzschlüssel ist ein eindeutiger Bezeichner für jede Zeile in der Dimensionstabelle. Häufig handelt es sich um einen ganzzahligen Wert, den das Datenbankverwaltungssystem automatisch generiert, wenn Sie eine neue Zeile einfügen.
  • Ein alternativer Schlüssel ist häufig ein natürlicher oder Geschäftsschlüssel, der eine bestimmte Instanz einer Entität im Transaktionsquellsystem identifiziert , z. B. einen Produktcode oder eine Kunden-ID.

Sie benötigen sowohl Ersatzschlüssel als auch alternative Schlüssel in einer data warehouse, da sie unterschiedlichen Zwecken dienen. Ersatzschlüssel sind spezifisch für die data warehouse und tragen zur Konsistenz und Genauigkeit bei. Alternative Schlüssel sind spezifisch für das Quellsystem und tragen zur Aufrechterhaltung der Rückverfolgbarkeit zwischen dem data warehouse und dem Quellsystem bei.

Spezielle Typen von Dimensionstabellen

Spezielle Dimensionstypen bieten zusätzlichen Kontext und ermöglichen eine umfassendere Datenanalyse.

Zeitabmessungen enthalten Informationen über den Zeitraum, in dem ein Ereignis aufgetreten ist. Mit dieser Tabelle können Data Analysts Daten über zeitliche Intervalle aggregieren. Eine Zeitdimension kann z. B. Spalten für das Jahr, das Quartal, den Monat und den Tag eines Verkaufsauftrags enthalten.

Bei einer langsamen Änderung der Dimensionen werden Änderungen an Dimensionsattributen im Laufe der Zeit nachverfolgt, z. B. Änderungen an der Adresse eines Kunden oder des Preises eines Produkts. Sie sind in einer data warehouse von Bedeutung, da sie es Ihnen ermöglichen, Änderungen an Daten im Laufe der Zeit zu analysieren und zu verstehen. Langsam ändernde Dimensionen stellen sicher, dass Daten aktuell und genau bleiben, was wichtig für gute Geschäftsentscheidungen ist.

Data Warehouse-Schemaentwürfe

In den meisten Transaktionsdatenbanken, die in Geschäftsanwendungen verwendet werden, werden die Daten normalisiert , um die Duplizierung zu reduzieren. In einem data warehouse werden die Dimensionsdaten jedoch denormalisiert*, um die Anzahl der Verknüpfungen zu verringern, die zum Abfragen der Daten erforderlich sind.

Häufig verwendet ein data warehouse ein star-Schema, in dem sich eine Faktentabelle direkt auf die Dimensionstabellen bezieht, wie in diesem Beispiel gezeigt:

Diagramm eines Sternschemaentwurfs mit einer FactSales-Tabelle mit fünf Dimensionen, die die Form eines Sterns bilden.

Sie können Bemaßungsattribute verwenden, um Zahlen in Faktentabellen auf verschiedenen Ebenen zu gruppieren. Möglicherweise wird der Gesamtumsatz für eine ganze Region oder nur für einen Kunden angezeigt. Sie können die Informationen für jede Ebene in derselben Dimensionstabelle speichern.

Tipp

Weitere Informationen zum Entwerfen von Sternschemas für Fabric finden Sie unter Was ist ein Sternschema ?

Wenn es viele Ebenen oder Attribute gibt, die von verschiedenen Dingen geteilt werden, kann es sinnvoll sein, stattdessen ein Schneeflockenschema zu verwenden. Hier sehen Sie ein Beispiel:

Diagramm eines Schneeflockenschemadesigns, das mehrere Dimensionen anzeigt.

In diesem Fall wird die Tabelle DimProduct so aufgeteilt (normalisiert), dass sie in separate Dimensionstabellen für Produktkategorien und Lieferanten unterteilt wird.

  • Jede Zeile in der Tabelle "DimProduct " enthält Schlüsselwerte für die entsprechenden Zeilen in den Tabellen "DimCategory " und "DimSupplier".

Eine DimGeography-Tabelle enthält Informationen dazu, wo sich Kunden und Filialen befinden.

  • Jede Zeile in den Tabellen DimCustomer und DimStore enthält einen Schlüsselwert für die entsprechende Zeile in der DimGeography-Tabelle .