DQS ナレッジベースとドメイン

このトピックでは、Data Quality Services (DQS) のナレッジベースについて説明します。データをクレンジングするには、データに関する知識が必要です。データ品質プロジェクトのナレッジを準備するには、DQS が不適切または無効なデータを識別するために使用できるナレッジベース (KB) を構築して維持します。 DQS を使用すると、コンピューター支援プロセスと対話型プロセスの両方を使用して、ナレッジベースを作成、ビルド、更新できます。ナレッジベースのナレッジはドメインに保持され、各ドメインはデータフィールドに固有です。ナレッジベースは、データを理解し、その整合性を維持できる、データに関する知識のリポジトリです。

DQS ナレッジベースには、次の利点があります。

データに関する知識の構築は、詳細なプロセスです。サンプルデータからデータに関する知識を自動的に抽出する DQS プロセスにより、プロセスがはるかに簡単になります。
DQS を使用すると、データの分析を確認し、ルールを作成してデータ値を変更することで、ナレッジベースのナレッジを強化できます。これを繰り返し行って、時間の経過とともに知識を向上させることができます。
既存の KB に基づくナレッジベース、ファイルから KB へのドメインナレッジのインポート、プロジェクトから KB へのナレッジのインポート、または DQS の既定の KB である DQS データの使用によって、既存のデータ品質の知識を活用できます。
参照データプロバイダーによって管理されているデータと比較することで、データの品質を確保できます。
ナレッジベースの構築とデータ修正プロセスでの適用には明確な分離があり、ナレッジベースの構築と更新方法を柔軟に行うことができます。

データスチュワードは、Data Quality Client アプリケーションを使用して、コンピューター支援の手順を実行および制御し、対話型の手順を実行します。

次の図は、ナレッジベースと DQS のドメインのさまざまなコンポーネントを示しています。

DQS のナレッジベースとドメイン

DQS ナレッジベースを作成して構築する方法

DQS ナレッジベースの構築には、次のプロセスとコンポーネントが含まれます。

ナレッジ検出
コンピュータによる支援プロセスで、データサンプルを処理して知識を蓄積し、ナレッジベースを形成する

ドメイン管理
データスチュワードがナレッジベースドメイン内のナレッジを検証および変更できるようにする対話型プロセス。各ナレッジはデータフィールドに関連付けられています。これには、フィールド全体のプロパティの設定、ルールの作成、特定の値の変更、参照データサービスの使用、用語ベースまたはフィールド間のリレーションシップの設定が含まれます。

参照データサービス
参照データプロバイダーによって維持および保証されているデータに対してデータを検証できるようにするドメイン管理のプロセス。

照合ポリシー
DQS がレコードを処理して、潜在的な重複と一致しないレコードを識別する方法を定義するポリシー。コンピューター支援型の対話型プロセスのナレッジベースに組み込まれています。

ナレッジ検出

ナレッジベースの作成は、最初はコンピューターガイド付きプロセスです。ナレッジ検出アクティビティは、データ品質基準のデータのサンプルを分析し、データの不整合と構文エラーを探し、データの変更を提案することで、ナレッジベースを構築します。この分析は、DQS に組み込まれているアルゴリズムに基づいています。

データスチュワードは、ナレッジベースを SQL Server データベーステーブルまたはビューにリンクしてプロセスを準備します。このビューには、ナレッジベースを分析するために使用されるデータと同様のサンプルデータが含まれています。その後、データスチュワードは、分析するサンプルデータの各列にナレッジベースドメインをマップします。ドメインは、1 つのフィールドにマップされる 1 つのドメインにすることも、1 つのフィールド内のデータの一部にマップされる複数の単一ドメインで構成される複合ドメインにすることもできます (以下の「複合ドメイン」を参照)。ナレッジ検出を実行すると、DQS はサンプルデータからナレッジベース内のドメインにデータ品質情報を抽出します。ナレッジ検出分析を実行すると、データ修正を実行できるナレッジベースが作成されます。

DQS ナレッジベースは拡張可能です。ナレッジ検出アクティビティ内から、コンピューター支援型のナレッジ検出分析の後にナレッジベースにナレッジを対話形式で追加できます。値の変更を手動で追加したり、Excel ファイルからドメイン値をインポートしたりできます。さらに、サンプル内のデータが変更された場合は、後でナレッジ検出プロセスを再度実行できます。ドメイン管理アクティビティ内とデータ照合アクティビティ (以下を参照) から、より多くの知識を適用できます。

ナレッジ検出プロセスは、データ修正が実行されるのと同じデータに対して実行する必要はありません。 DQS を使用すると、1 つのデータベースフィールドセットからナレッジを柔軟に作成し、クレンジングする必要がある 2 つ目の関連データセットに適用できます。データスチュワードは、新しいナレッジベースをゼロから作成したり、既存のナレッジベースに基づいて作成したり、データファイルからナレッジベースをインポートしたりできます。既存のナレッジベースでナレッジ検出を再実行することもできます。 1 つの Data Quality Server で複数のナレッジベースを維持できます。アプリケーションの複数のインスタンスを同じナレッジベースに接続することもできます。 DQS は、ナレッジ管理セッションでナレッジベースを開いたユーザーにナレッジベースをロックすることで、コンカレンシーの競合を防ぎます。

DQS での大文字と小文字の区別のなさ

DQSでは、値は大文字と小文字を区別しません。つまり、DQS がナレッジ検出、ドメイン管理、または照合を実行する場合、値は大文字と小文字で区別されません。別の値とは異なる値をケースによってのみ値管理に追加すると、シノニムではなく同じ値と見なされます。大文字と小文字のみが異なる 2 つの値が一致処理で比較される場合、それらは完全一致と見なされます。

ただし、クレンジング結果でエクスポートする値について、大文字小文字を制御することが可能です。そのためには、[ 出力の書式設定 ] をドメインプロパティに設定し (ドメインプロパティの設定を参照)、クレンジング結果をエクスポートするときに [ 出力の標準化 ] チェックボックスを使用します ( DQS (内部) ナレッジを使用したデータのクレンジングを参照)。

ドメイン管理

ドメイン管理を使用すると、データスチュワードは、コンピューター支援型のナレッジ検出アクティビティによって生成されるメタデータを対話形式で変更および拡張できます。行う変更は、ナレッジベースドメインに対して行われます。ドメイン管理アクティビティでは、次の操作を行うことができます。

新しいドメインを作成します。新しいドメインは、既存のドメインにリンクすることも、既存のドメインからコピーすることもできます。
ドメイン内の各用語に適用されるドメインプロパティを設定します。
定義した値の範囲に対して検証または標準化を実行するドメインルールを適用します。
ドメイン内の特定のデータ値に変更を対話的に適用します。
DQS スペルチェックを使用して、文字列値の構文、スペル、および文の構造を確認します。
.dqs データファイルからドメインをインポートするか、Microsoft Excel ファイルからドメイン値をインポートします。
データ品質プロジェクトのクレンジングプロセスによって検出された値をナレッジベースにインポートします。
参照データプロバイダーによって管理されている参照データにドメインをアタッチします。その結果、ドメイン値が参照データと比較され、その整合性と正確性が判断されます。データプロバイダーの設定を設定することもできます。
1 つのドメインに用語ベースのリレーションを適用します。

ドメイン管理アクティビティが完了したら、データプロジェクトで使用するナレッジベースを公開できます。

ドメインのプロパティの設定

ドメインプロパティは、関連付けられた値に適用される処理を定義し、駆動します。値のデータ型と言語を設定し、ソースデータを先頭の値でクレンジングするように指定できます (このオプションをオフにすると、ソースデータは正しい用語でクレンジングされますが、先頭の値ではクレンジングされません)、ドメイン内のデータ値が出力されるときに適用される書式設定を構成して、データの標準化を保証します。を選択し、適用するアルゴリズム (構文エラー、スペルチェック、および文字列の正規化) を定義します。

参照データサービス

ドメイン管理プロセスでは、オンライン参照データをドメインにアタッチできます。これは、ドメイン内のデータと、参照データプロバイダーによって管理されるデータを比較する方法です。最初に、Data Quality Client アプリケーションの [管理 ] セクションの DQS 構成機能を使用して、参照データプロバイダーを構成する必要があります。詳細については、「 Reference Data Services in DQS」をご覧ください。

ドメインルールの適用

データ検証用のドメインルールを作成できます。ドメインルールでは、文字列値にできる用語などの基本的な制約から、電子メールアドレスの有効な形式などのより複雑な正規表現まで、データの精度が保証されます。

複合ドメインの場合、1 つのドメインの値と別の単一ドメインの値の間の関係を指定する CD ルールを作成できます。これらはどちらも複合ドメインの一部です。

ドメイン値の設定

ナレッジベースを構築したら、ナレッジベースの各ドメインにデータ値を設定して表示できます。ナレッジ検出後、DQS では、各用語が表示される回数、各用語の状態、および提案された修正が表示されます。この知識は次のように管理できます。

値の状態を、正しい、エラー、または無効のいずれかに変更します。
ナレッジベースに対して特定の値を追加または削除する
ある値の関係を別の値に変更します(エラーまたは無効な用語の置換の指定を含む)
ドメインに関連付けられているナレッジを追加、削除、または変更します。

値は、ユーザーが作成することも、データ検出またはインポート機能の一部として作成することもできます。これにより、ドメインをビジネスに合わせ、簡単に拡張できます。

ドメインの値は、ドメイン管理アクティビティまたはナレッジ検出アクティビティの最後にある [ドメイン値の管理] ステップで設定できます。ドメイン値の機能は、両方のアクティビティで同じです。

用語のリレーションの設定

ドメイン管理では、1 つのドメインの用語ベースのリレーションシップを指定し、1 つの値に変更を指定できます。

複合ドメイン

複合ドメインは、それぞれが共通データに関する知識を含む 2 つ以上の単一ドメインで構成される構造です。複合ドメインでアドレス指定できるデータの例としては、名前フィールドの先頭、中央、家族名、住所フィールドの番地と番地、市区町村、都道府県、郵便番号、国/地域などがあります。 1 つのフィールドを複合ドメインにマップすると、DQS は 1 つのフィールドのデータを、複合を構成する複数のドメインに解析します。

1 つのドメインがフィールドデータ全体を表さない場合があります。複合ドメイン内の複数のドメインをグループ化すると、効率的な方法でデータを表すことができます。複合ドメインを使用する利点を次に示します。

複合ドメインを構成するさまざまな単一ドメインを分析すると、データ品質をより効果的に評価できます。
複合ドメインを使用する場合は、複数のドメイン内のデータ間のリレーションシップが適切であることを確認できるクロスドメインルールを作成することもできます。たとえば、都市ドメインの文字列 "London" が、国/地域ドメインの文字列 "England" に対応していることを確認できます。ドメイン間の規則は、ドメインルールの後に考慮されることに注意してください。
複合ドメイン内のデータは参照データソースにアタッチできます。その場合、複合ドメインは参照データプロバイダーに送信されます。これは、多くの場合、アドレスデータで行われます。

複合ドメインによって表されるデータの解析方法は、複合ドメインのプロパティによって決まります。データは、区切り記号、ドメインの順序、または複合ドメインにアタッチされているドメインのナレッジに基づいて解析できます (複合ドメインの [ナレッジベースの解析を使用 ] プロパティを選択)。詳細については、「複合ドメインのプロパティの設定」を参照してください。

複合ドメインは、単一ドメインとは異なる方法で管理されます。複合ドメイン内の値は管理しません。これは、複合ドメインを構成する単一ドメインに対して行います。ただし、ドメイン管理アクティビティのドメインリストから、複合ドメイン内の異なる値とそれらに適用される統計情報の間の関係を確認できます。たとえば、同じ 5 つの文字列値で構成される 1 つのアドレスのインスタンスの数を確認できます。 Knowledge Discovery アクティビティの検出ステップでは、プロファイリングは複合ドメインではなく複合ドメイン内の単一ドメインに対して実行されます。ただし、対話型クレンジングでは、単一ドメインではなく複合ドメイン内のデータをクレンジングします。

照合は、複合ドメインを構成する単一ドメインで実行できますが、複合ドメイン自体では実行できません。

データ照合

ドメイン管理を通じてナレッジベースに手動で変更を加えるだけでなく、一致するナレッジをナレッジベースに追加することもできます。データ重複除去プロセス用に DQS を準備するには、DQS が照合の確率を計算するために使用する照合ポリシーを作成する必要があります。このポリシーには、DQS がデータ行を比較する方法を識別するためにデータスチュワードが作成する 1 つ以上の一致ルールが含まれています。データスチュワードは、行内のどのデータフィールドを比較するか、および比較で各フィールドの重みを決定します。また、データスチュワードは、一致と見なされる確率の高さを決定します。 DQS は、データ品質プロジェクトで照合アクティビティを実行するために使用する照合ルールをナレッジベースに追加します。

ナレッジベースとデータマッチングの詳細については、「データマッチング」を参照してください。

このセクションにて

ナレッジベースとそのドメインに対して、次の操作を実行できます。


ナレッジベースを作成し、開き、ナレッジを追加して、ナレッジの発見を行う	ナレッジベースの構築
ドメインとナレッジベースに対してインポート操作とエクスポート操作を実行する	ナレッジのインポートとエクスポート
1 つのドメイン、ドメインルール、用語ベースのリレーションを作成し、ドメイン値を変更する	ドメインの管理
複合ドメインの作成、クロスドメインルールの作成、値の関係の使用	複合ドメインの管理
DQS に組み込まれている既定の DQS データナレッジベースを使用する	DQS の既定のナレッジベースの使用

Last updated on 2017-06-13