Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Thema wird beschrieben, was eine Wissensbasis in Data Quality Services (DQS) ist. Um Daten zu bereinigen, müssen Sie Wissen über die Daten haben. Um Wissen für ein Datenqualitätsprojekt vorzubereiten, erstellen und verwalten Sie eine Knowledge Base (KB), die DQS verwenden kann, um falsche oder ungültige Daten zu identifizieren. Mit DQS können Sie sowohl computergestützte als auch interaktive Prozesse verwenden, um Ihre Wissensbasis zu erstellen, zu erstellen und zu aktualisieren. Wissen in einer Wissensbasis wird in Domänen verwaltet, von denen jedes für ein Datenfeld spezifisch ist. Die Wissensdatenbank ist ein Repository von Wissen über Ihre Daten, mit dem Sie Ihre Daten verstehen und ihre Integrität verwalten können.
DQS Knowledge Basen haben die folgenden Vorteile:
Das Erstellen von Wissen über Daten ist ein detaillierter Prozess. Der DQS-Prozess zum automatischen Extrahieren von Wissen über Daten aus Beispieldaten erleichtert den Prozess erheblich.
Mit DQS können Sie die Analyse der Daten anzeigen und das Wissen in der Wissensbasis erweitern, indem Sie Regeln erstellen und Datenwerte ändern. Sie können dies wiederholt tun, um das Wissen im Laufe der Zeit zu verbessern.
Sie können bereits vorhandene Datenqualitätswissen nutzen, indem Sie eine Wissensbasis auf einer vorhandenen KB basieren, Domänenwissen aus Dateien in das KB importieren, Wissen aus einem Projekt wieder in ein KB importieren oder die DQS-Standard-KB-, DQS-Daten verwenden.
Sie können die Qualität Ihrer Daten sicherstellen, indem Sie sie mit den von einem Referenzdatenanbieter verwalteten Daten vergleichen.
Es gibt eine klare Trennung zwischen dem Erstellen einer Wissensbasis und der Anwendung im Datenkorrekturprozess, was Ihnen Flexibilität bei der Erstellung und Aktualisierung der Wissensbasis bietet.
Der Data Steward verwendet die Data Quality Client-Anwendung, um die computergestützten Schritte auszuführen und zu steuern und die interaktiven Schritte auszuführen.
Die folgende Abbildung zeigt verschiedene Komponenten in einer Wissensdatenbank und einer Domäne in DQS:
Erstellen und Aufbau einer DQS-Wissensdatenbank
Das Erstellen einer DQS-Wissensbasis umfasst die folgenden Prozesse und Komponenten:
Knowledge Discovery
Ein computergestützter Prozess, der Wissen in eine Wissensbasis integriert, indem ein Datenbeispiel verarbeitet wird
Domänenverwaltung
Ein interaktiver Prozess, der es dem Data Steward ermöglicht, das Wissen zu überprüfen und zu ändern, das sich in Wissensbasisdomänen befindet, von denen jeder einem Datenfeld zugeordnet ist. Dies kann das Festlegen von feldweiten Eigenschaften, das Erstellen von Regeln, das Ändern bestimmter Werte, die Verwendung von Referenzdatendiensten oder das Einrichten von begriffsbasierten oder feldübergreifenden Beziehungen umfassen.
Referenzdatendienste
Ein Prozess der Domänenverwaltung, mit dem Sie Ihre Daten anhand von Daten überprüfen können, die von einem Referenzdatenanbieter verwaltet und garantiert werden.
Abgleichrichtlinie
Eine Richtlinie, die definiert, wie DQS Datensätze verarbeitet, um potenzielle Duplikate und Nicht-Übereinstimmungen zu identifizieren, die in die Wissensbasis in einem computergestützten und interaktiven Prozess integriert sind.
Wissensentdeckung
Die Wissensbasiserstellung ist zunächst ein computergeführter Prozess. Die Wissensermittlungsaktivität erstellt die Wissensbasis, indem eine Stichprobe von Daten für Datenqualitätskriterien analysiert wird, nach Dateninkonsistenzen und Syntaxfehlern gesucht und Änderungen an den Daten vorgeschlagen werden. Diese Analyse basiert auf Algorithmen, die in DQS integriert sind.
Der Data Steward bereitet den Prozess vor, indem eine Wissensdatenbank mit einer SQL Server-Datenbanktabelle oder -Ansicht verknüpft wird, die Beispieldaten enthält, die den Daten ähneln, die von der Wissensdatenbank zum Analysieren verwendet werden. Der Data Steward ordnet dann jeder Spalte der zu analysierenden Beispieldaten eine Wissensbasisdomäne zu. Eine Domäne kann entweder eine einzelne Domäne sein, die einem einzelnen Feld zugeordnet ist, oder es kann sich um eine zusammengesetzte Domäne handeln, die aus mehreren einzelnen Domänen besteht, die jeweils einem Teil der Daten in einem einzigen Feld zugeordnet sind (siehe "Zusammengesetzte Domänen" unten). Wenn Sie Wissensentdeckung durchführen, extrahiert DQS Datenqualitätsinformationen aus den Beispieldaten in die Domänen der Wissensbasis. Wenn Sie die Wissensermittlungsanalyse ausführen, verfügen Sie über eine Wissensbasis, mit der Sie eine Datenkorrektur durchführen können.
Die DQS-Wissensbasis ist erweiterbar. Aus der Knowledge Discovery-Aktivität können Sie der Wissensbasis nach der computergestützten Wissensermittlungsanalyse interaktiv Wissen hinzufügen. Sie können Wertänderungen manuell hinzufügen und Domänenwerte aus einer Excel-Datei importieren. Darüber hinaus können Sie den Wissensermittlungsprozess zu einem späteren Zeitpunkt erneut ausführen, wenn sich die Daten im Beispiel geändert haben. Sie können mehr Wissen aus der Domänenverwaltungsaktivität und innerhalb der Datenabgleichsaktivität anwenden (siehe unten).
Der Wissensermittlungsprozess muss nicht auf denselben Daten durchgeführt werden, auf denen die Datenkorrektur durchgeführt wird. DQS bietet die Flexibilität, Wissen aus einer Reihe von Datenbankfeldern zu erstellen und auf einen zweiten Satz verwandter Daten anzuwenden, die bereinigt werden müssen. Der Data Steward kann eine neue Wissensbasis von Grund auf neu erstellen, auf einer vorhandenen Wissensbasis basieren oder eine Wissensdatenbank aus einer Datendatei importieren. Sie können die Wissensermittlung auch auf einer vorhandenen Wissensbasis erneut ausführen. Sie können mehrere Wissensdatenbanken auf einem einzelnen Datenqualitätsserver verwalten. Sie können auch mehrere Instanzen einer Anwendung mit derselben Wissensbasis verbinden. DQS verhindert Parallelitätskonflikte, indem die Wissensbasis an einen Benutzer gesperrt wird, der ihn in einer Wissensverwaltungssitzung öffnet.
Groß- und Kleinschreibungsunabhängigkeit in DQS
DQS-Werte sind nicht groß- bzw. kleinschreibungssensitiv. Das bedeutet, dass DQS bei der Durchführung von Wissensermittlung, Domänenverwaltung oder Abgleich keine Unterscheidung zwischen Groß- und Kleinschreibung der Werte vornimmt. Wenn Sie einen Wert in der Wertverwaltung hinzufügen, der sich nur von einem anderen Wert unterscheidet, werden sie als derselbe Wert und nicht als Synonyme betrachtet. Wenn zwei Werte, die sich nur im Fall unterscheiden, im Abgleichsprozess verglichen werden, werden sie als genaue Übereinstimmung betrachtet.
Sie können jedoch den Fall von Werten steuern, die Sie in Bereinigungsergebnissen exportieren. Dazu legen Sie die Eigenschaft "Ausgabe auf Domäne formatieren " fest (siehe " Domäneneigenschaften festlegen") und verwenden das Kontrollkästchen "Ausgabe standardisieren ", wenn Sie Die Bereinigungsergebnisse exportieren (siehe "Cleanse Data Using DQS (Internal) Knowledge").
Domänenverwaltung
Die Domänenverwaltung ermöglicht es dem Data Steward, die von der computergestützten Wissensermittlungsaktivität generierten Metadaten interaktiv zu ändern und zu erweitern. Jede Änderung, die Sie vornehmen, ist für eine Wissensbasisdomäne vorgesehen. In der Domänenverwaltungsaktivität können Sie folgende Aktionen ausführen:
Erstellen Sie eine neue Domäne. Die neue Domäne kann mit einer vorhandenen Domäne verknüpft oder kopiert werden.
Legen Sie Domäneneigenschaften fest, die für jeden Ausdruck in der Domäne gelten.
Wenden Sie Domänenregeln an, die eine Überprüfung oder Standardisierung für einen von Ihnen definierten Wertebereich ausführen.
Interaktives Anwenden von Änderungen auf einen bestimmten Datenwert in der Domäne.
Verwenden Sie die DQS Speller, um die Syntax, die Rechtschreibung und die Satzstruktur von Zeichenfolgenwerten zu überprüfen.
Importieren Sie eine Domäne aus einer DQS-Datendatei oder Domänenwerten aus einer Microsoft Excel-Datei.
Importieren Sie Werte, die durch einen Bereinigungsprozess in einem Datenqualitätsprojekt gefunden wurden, wieder in eine Wissensbasis.
Fügen Sie eine Domäne an die Referenzdaten an, die von einem Referenzdatenanbieter verwaltet werden, mit dem Ergebnis, dass die Domänenwerte mit den Referenzdaten verglichen werden, um ihre Integrität und Richtigkeit zu bestimmen. Sie können auch Datenanbietereinstellungen festlegen.
Wenden Sie termbasierte Beziehungen für einen einzelnen Bereich an.
Wenn die Domänenverwaltungsaktivität abgeschlossen ist, können Sie die Wissensbasis für die Verwendung in einem Datenprojekt veröffentlichen.
Festlegen von Domäneneigenschaften
Domäneneigenschaften definieren und steuern die Verarbeitung, die auf die zugeordneten Werte angewendet wird. Sie können den Datentyp und die Sprache der Werte festlegen, angeben, dass die Quelldaten mit dem führenden Wert bereinigt werden (wenn diese Option deaktiviert ist, werden die Quelldaten mit dem richtigen Ausdruck, aber nicht mit dem führenden Wert bereinigt), stellen Sie die Datenstandardisierung sicher, indem Sie die Formatierung konfigurieren, die angewendet wird, wenn die Datenwerte in der Domäne ausgegeben werden, und definieren Sie, welche Algorithmen (Syntaxfehler, Rechtschreib- und Zeichenfolgennormalisierung) angewendet werden.
Referenzdatendienste
Im Domänenverwaltungsprozess können Sie Onlineverweisdaten an eine Domäne anfügen. So vergleichen Sie die Daten in Ihrer Domäne mit den Daten, die von einem Referenzdatenanbieter verwaltet werden. Sie müssen zuerst den Referenzdatenanbieter über die DQS-Konfigurationsfunktionen im Abschnitt "Verwaltung " der Datenqualitätsclientanwendung konfigurieren. Weitere Informationen finden Sie unter Reference Data Services in DQS.
Anwenden von Domänenregeln
Sie können Domänenregeln für die Datenüberprüfung erstellen. Eine Domänenregel stellt die Genauigkeit von Daten sicher, von einer grundlegenden Einschränkung, z. B. den möglichen Ausdrücken, die ein Zeichenfolgenwert sein kann, bis zu einem komplexeren regulären Ausdruck, z. B. die gültigen Formulare einer E-Mail-Adresse.
Für eine zusammengesetzte Domäne können Sie eine CD-Regel erstellen, die eine Beziehung zwischen einem Wert in einer einzelnen Domäne und einem Wert in einer anderen einzelnen Domäne angibt, die beide Teile einer zusammengesetzten Domäne sind.
Festlegen von Domänenwerten
Nachdem Sie eine Wissensdatenbank erstellt haben, können Sie Datenwerte in jeder Domäne der Wissensbasis auffüllen und anzeigen. Nach der Wissensermittlung zeigt DQS an, wie oft jeder Ausdruck angezeigt wird, was der Status jedes Ausdrucks ist, und alle korrekturen, die er vorschlägt. Sie können dieses Wissen wie folgt verwalten:
Ändern des Status eines Werts, sodass er korrekt, im Fehler oder ungültig ist
Hinzufügen eines bestimmten Werts oder Löschen eines bestimmten Werts aus der Wissensbasis
Ändern der Beziehung eines Werts zu einem anderen Wert, einschließlich der Angabe eines Ersatzes für einen Fehler oder ungültigen Ausdruck
Hinzufügen, Entfernen oder Ändern von Wissen, das der Domäne zugeordnet ist.
Werte können speziell vom Benutzer oder als Teil der Datenermittlungs- oder Importfunktionen erstellt werden. Auf diese Weise können Sie die Domäne an das Unternehmen ausrichten und es einfach erweiterbar machen.
Sie können Domänenwerte entweder in der Domänenverwaltungsaktivität oder im Schritt "Domänenwerte verwalten" am Ende der Wissensermittlungsaktivität festlegen. Die Domänenwertfunktion ist in beiden Aktivitäten identisch.
Erstellen von Begriffsbeziehungen
In der Domänenverwaltung können Sie eine terminbasierte Beziehung für eine einzelne Domäne definieren und eine Änderung an einem einzelnen Wert festlegen.
Zusammengesetzte Domänen
Eine zusammengesetzte Domäne ist eine Struktur, die aus zwei oder mehr einzelnen Domänen besteht, die jeweils Wissen über allgemeine Daten enthalten. Beispiele für Daten, die durch zusammengesetzte Domänen adressiert werden können, sind die vornamen, mittleren und Familiennamen in einem Namensfeld sowie die Hausnummer und Straße, Stadt, Bundesland, Postleitzahl und Land/Region in einem Adressfeld. Wenn Sie ein einzelnes Feld einer zusammengesetzten Domäne zuordnen, zerlegt DQS die Daten aus einem einzelnen Feld in die verschiedenen Domänen, die die zusammengesetzte Domäne bilden.
Manchmal stellt eine einzelne Domäne keine Felddaten vollständig dar. Wenn Sie zwei oder mehr Domänen in einer zusammengesetzten Domäne gruppieren, können Sie die Daten effizient darstellen. Im Folgenden sind die Vorteile der Verwendung zusammengesetzter Domänen aufgeführt:
Die Analyse der verschiedenen einzelnen Domänen, aus denen eine zusammengesetzte Domäne besteht, kann eine effektivere Methode zur Bewertung der Datenqualität sein.
Wenn Sie eine zusammengesetzte Domäne verwenden, können Sie auch domänenübergreifende Regeln erstellen, mit denen Sie überprüfen können, ob die Beziehung zwischen den Daten in mehreren Domänen geeignet ist. Sie können beispielsweise überprüfen, ob die Zeichenfolge "London" in einer Stadtdomäne der Zeichenfolge "England" in einer Land-/Regionsdomäne entspricht. Beachten Sie, dass domänenübergreifende Regeln nach Domänenregeln berücksichtigt werden.
Daten in zusammengesetzten Domänen können an eine Referenzdatenquelle angefügt werden. In diesem Fall wird die zusammengesetzte Domäne an den Referenzdatenanbieter gesendet. Dies geschieht häufig mit Adressdaten.
Wie die durch eine zusammengesetzte Domäne dargestellten Daten analysiert werden, wird durch die zusammengesetzten Domäneneigenschaften bestimmt. Die Daten können nach einem Trennzeichen, nach der Reihenfolge der Domänen oder basierend auf dem Wissen in den Domänen analysiert werden, die der zusammengesetzten Domäne zugeordnet sind (durch Auswählen der Option „Use Knowledge Based Parsing“ in der zusammengesetzten Domäne). Weitere Informationen finden Sie unter Set Composite Domain Properties.
Zusammengesetzte Domänen werden anders verwaltet als einzelne Domänen. Sie verwalten keine Werte in einer zusammengesetzten Domäne; Dies geschieht für die einzelnen Domänen, die die zusammengesetzte Domäne umfassen. Aus der Domänenliste in der Domänenverwaltungsaktivität können Sie jedoch die Beziehungen zwischen den verschiedenen Werten in einer zusammengesetzten Domäne und den Statistiken sehen, die für sie gelten. Sie können beispielsweise sehen, wie viele Instanzen eine einzelne Adresse haben, die aus denselben fünf Zeichenfolgenwerten besteht. Im Schritt "Entdecken" der Knowledge Discovery-Aktivität wird die Profilerstellung für die einzelnen Domänen innerhalb einer zusammengesetzten Domäne und nicht für die zusammengesetzte Domäne ausgeführt. Bei der interaktiven Bereinigung bereinigen Sie jedoch Daten in der zusammengesetzten Domäne, nicht in den einzelnen Domänen.
Der Abgleich kann für die einzelnen Domänen durchgeführt werden, die die zusammengesetzte Domäne umfassen, aber nicht für die zusammengesetzte Domäne selbst.
Datenabgleich
Zusätzlich zu manuellen Änderungen an einer Wissensbasis über die Domänenverwaltung können Sie einer Wissensbasis passende Kenntnisse hinzufügen. Um DQS für den Datendeduplizierungsprozess vorzubereiten, müssen Sie eine Abgleichrichtlinie erstellen, die DQS verwendet, um die Wahrscheinlichkeit einer Übereinstimmung zu ermitteln. Die Richtlinie enthält eine oder mehrere Übereinstimmungsregeln, die der Data Steward erstellt, um zu ermitteln, wie DQS Zeilen mit Daten vergleichen soll. Der Data Steward bestimmt, welche Datenfelder in der Zeile verglichen werden sollen, und wie viel Gewicht jedes Felds im Vergleich haben soll. Der Data Steward bestimmt auch, wie hoch die Wahrscheinlichkeit für eine Übereinstimmung sein sollte. DQS fügt der Wissensdatenbank die Abgleichsregeln für die Durchführung der Abgleichsaktivitäten im Datenqualitätsprojekt hinzu.
Weitere Informationen zur Wissensdatenbank und zum Abgleich von Daten finden Sie unter "Datenabgleich".
In diesem Abschnitt
Sie können die folgenden Vorgänge für eine Wissensbasis und deren Domänen ausführen:
| Erstellen, Öffnen, Hinzufügen von Wissen und Durchführen von Erkenntnissen auf einer Wissensbasis | Erstellen einer Wissensbasis |
| Ausführen von Import- und Exportvorgängen in Domänen und Wissensdatenbanken | Importieren und Exportieren von Wissen |
| Erstellen einer einzelnen Domäne, einer Domänenregel, begriffsbasierten Beziehungen und Ändern von Domänenwerten | Verwalten einer Domäne |
| Erstellen einer zusammengesetzten Domäne, Erstellen einer domänenübergreifenden Regel und Verwenden von Wertbeziehungen | Verwalten einer zusammengesetzten Domäne |
| Verwenden der standardmäßigen DQS-Datenwissensdatenbank, die in DQS integriert ist | Verwenden der Standard-Knowledge Base für DQS |