このトピックでは、Data Quality Services (DQS) のナレッジ ベースについて説明します。 データをクレンジングするには、データに関する知識が必要です。 データ品質プロジェクトのナレッジを準備するには、DQS が不適切または無効なデータを識別するために使用できるナレッジ ベース (KB) を構築して維持します。 DQS を使用すると、コンピューター支援プロセスと対話型プロセスの両方を使用して、ナレッジ ベースを作成、ビルド、更新できます。 ナレッジ ベースのナレッジはドメインに保持され、各ドメインはデータ フィールドに固有です。 ナレッジ ベースは、データを理解し、その整合性を維持できる、データに関する知識のリポジトリです。
DQS ナレッジ ベースには、次の利点があります。
データに関する知識の構築は、詳細なプロセスです。 サンプル データからデータに関する知識を自動的に抽出する DQS プロセスにより、プロセスがはるかに簡単になります。
DQS を使用すると、データの分析を確認し、ルールを作成してデータ値を変更することで、ナレッジ ベースのナレッジを強化できます。 これを繰り返し行って、時間の経過とともに知識を向上させることができます。
既存の KB に基づくナレッジ ベース、ファイルから KB へのドメイン ナレッジのインポート、プロジェクトから KB へのナレッジのインポート、または DQS の既定の KB である DQS データの使用によって、既存のデータ品質の知識を活用できます。
参照データ プロバイダーによって管理されているデータと比較することで、データの品質を確保できます。
ナレッジ ベースの構築とデータ修正プロセスでの適用には明確な分離があり、ナレッジ ベースの構築と更新方法を柔軟に行うことができます。
データ スチュワードは、Data Quality Client アプリケーションを使用して、コンピューター支援の手順を実行および制御し、対話型の手順を実行します。
次の図は、ナレッジ ベースと DQS のドメインのさまざまなコンポーネントを示しています。
DQS ナレッジ ベースを作成して構築する方法
DQS ナレッジ ベースの構築には、次のプロセスとコンポーネントが含まれます。
ナレッジ検出
コンピュータによる支援プロセスで、データサンプルを処理して知識を蓄積し、ナレッジベースを形成する
ドメイン管理
データ スチュワードがナレッジ ベース ドメイン内のナレッジを検証および変更できるようにする対話型プロセス。各ナレッジ はデータ フィールドに関連付けられています。 これには、フィールド全体のプロパティの設定、ルールの作成、特定の値の変更、参照データ サービスの使用、用語ベースまたはフィールド間のリレーションシップの設定が含まれます。
参照データ サービス
参照データ プロバイダーによって維持および保証されているデータに対してデータを検証できるようにするドメイン管理のプロセス。
照合ポリシー
DQS がレコードを処理して、潜在的な重複と一致しないレコードを識別する方法を定義するポリシー。コンピューター支援型の対話型プロセスのナレッジ ベースに組み込まれています。
ナレッジ検出
ナレッジ ベースの作成は、最初はコンピューターガイド付きプロセスです。 ナレッジ検出アクティビティは、データ品質基準のデータのサンプルを分析し、データの不整合と構文エラーを探し、データの変更を提案することで、ナレッジ ベースを構築します。 この分析は、DQS に組み込まれているアルゴリズムに基づいています。
データ スチュワードは、ナレッジ ベースを SQL Server データベース テーブルまたはビューにリンクしてプロセスを準備します。このビューには、ナレッジ ベースを分析するために使用されるデータと同様のサンプル データが含まれています。 その後、データ スチュワードは、分析するサンプル データの各列にナレッジ ベース ドメインをマップします。 ドメインは、1 つのフィールドにマップされる 1 つのドメインにすることも、1 つのフィールド内のデータの一部にマップされる複数の単一ドメインで構成される複合ドメインにすることもできます (以下の「複合ドメイン」を参照)。 ナレッジ検出を実行すると、DQS はサンプル データからナレッジ ベース内のドメインにデータ品質情報を抽出します。 ナレッジ検出分析を実行すると、データ修正を実行できるナレッジ ベースが作成されます。
DQS ナレッジ ベースは拡張可能です。 ナレッジ検出アクティビティ内から、コンピューター支援型のナレッジ検出分析の後にナレッジ ベースにナレッジを対話形式で追加できます。 値の変更を手動で追加したり、Excel ファイルからドメイン値をインポートしたりできます。 さらに、サンプル内のデータが変更された場合は、後でナレッジ検出プロセスを再度実行できます。 ドメイン管理アクティビティ内とデータ照合アクティビティ (以下を参照) から、より多くの知識を適用できます。
ナレッジ検出プロセスは、データ修正が実行されるのと同じデータに対して実行する必要はありません。 DQS を使用すると、1 つのデータベース フィールド セットからナレッジを柔軟に作成し、クレンジングする必要がある 2 つ目の関連データ セットに適用できます。 データ スチュワードは、新しいナレッジ ベースをゼロから作成したり、既存のナレッジ ベースに基づいて作成したり、データ ファイルからナレッジ ベースをインポートしたりできます。 既存のナレッジ ベースでナレッジ検出を再実行することもできます。 1 つの Data Quality Server で複数のナレッジ ベースを維持できます。 アプリケーションの複数のインスタンスを同じナレッジ ベースに接続することもできます。 DQS は、ナレッジ 管理セッションでナレッジ ベースを開いたユーザーにナレッジ ベースをロックすることで、コンカレンシーの競合を防ぎます。
DQS での大文字と小文字の区別のなさ
DQSでは、値は大文字と小文字を区別しません。 つまり、DQS がナレッジ検出、ドメイン管理、または照合を実行する場合、値は大文字と小文字で区別されません。 別の値とは異なる値をケースによってのみ値管理に追加すると、シノニムではなく同じ値と見なされます。 大文字と小文字のみが異なる 2 つの値が一致処理で比較される場合、それらは完全一致と見なされます。
ただし、クレンジング結果でエクスポートする値について、大文字小文字を制御することが可能です。 そのためには、[ 出力の書式設定 ] をドメイン プロパティに設定し (ドメイン プロパティの設定を参照)、クレンジング結果をエクスポートするときに [ 出力の標準化 ] チェック ボックスを使用します ( DQS (内部) ナレッジを使用したデータのクレンジングを参照)。
ドメイン管理
ドメイン管理を使用すると、データ スチュワードは、コンピューター支援型のナレッジ検出アクティビティによって生成されるメタデータを対話形式で変更および拡張できます。 行う変更は、ナレッジ ベース ドメインに対して行われます。 ドメイン管理アクティビティでは、次の操作を行うことができます。
新しいドメインを作成します。 新しいドメインは、既存のドメインにリンクすることも、既存のドメインからコピーすることもできます。
ドメイン内の各用語に適用されるドメイン プロパティを設定します。
定義した値の範囲に対して検証または標準化を実行するドメイン ルールを適用します。
ドメイン内の特定のデータ値に変更を対話的に適用します。
DQS スペル チェックを使用して、文字列値の構文、スペル、および文の構造を確認します。
.dqs データ ファイルからドメインをインポートするか、Microsoft Excel ファイルからドメイン値をインポートします。
データ品質プロジェクトのクレンジング プロセスによって検出された値をナレッジ ベースにインポートします。
参照データ プロバイダーによって管理されている参照データにドメインをアタッチします。その結果、ドメイン値が参照データと比較され、その整合性と正確性が判断されます。 データ プロバイダーの設定を設定することもできます。
1 つのドメインに用語ベースのリレーションを適用します。
ドメイン管理アクティビティが完了したら、データ プロジェクトで使用するナレッジ ベースを公開できます。
ドメインのプロパティの設定
ドメインプロパティは、関連付けられた値に適用される処理を定義し、駆動します。 値のデータ型と言語を設定し、ソース データを先頭の値でクレンジングするように指定できます (このオプションをオフにすると、ソース データは正しい用語でクレンジングされますが、先頭の値ではクレンジングされません)、ドメイン内のデータ値が出力されるときに適用される書式設定を構成して、データの標準化を保証します。 を選択し、適用するアルゴリズム (構文エラー、スペル チェック、および文字列の正規化) を定義します。
参照データ サービス
ドメイン管理プロセスでは、オンライン参照データをドメインにアタッチできます。 これは、ドメイン内のデータと、参照データ プロバイダーによって管理されるデータを比較する方法です。 最初に、Data Quality Client アプリケーションの [管理 ] セクションの DQS 構成機能を使用して、参照データ プロバイダーを構成する必要があります。 詳細については、「 Reference Data Services in DQS」をご覧ください。
ドメイン ルールの適用
データ検証用のドメイン ルールを作成できます。 ドメイン ルールでは、文字列値にできる用語などの基本的な制約から、電子メール アドレスの有効な形式などのより複雑な正規表現まで、データの精度が保証されます。
複合ドメインの場合、1 つのドメインの値と別の単一ドメインの値の間の関係を指定する CD ルールを作成できます。これらはどちらも複合ドメインの一部です。
ドメイン値の設定
ナレッジ ベースを構築したら、ナレッジ ベースの各ドメインにデータ値を設定して表示できます。 ナレッジ検出後、DQS では、各用語が表示される回数、各用語の状態、および提案された修正が表示されます。 この知識は次のように管理できます。
値の状態を、正しい、エラー、または無効のいずれかに変更します。
ナレッジ ベースに対して特定の値を追加または削除する
ある値の関係を別の値に変更します(エラーまたは無効な用語の置換の指定を含む)
ドメインに関連付けられているナレッジを追加、削除、または変更します。
値は、ユーザーが作成することも、データ検出またはインポート機能の一部として作成することもできます。 これにより、ドメインをビジネスに合わせ、簡単に拡張できます。
ドメインの値は、ドメイン管理アクティビティまたはナレッジ検出アクティビティの最後にある [ドメイン値の管理] ステップで設定できます。 ドメイン値の機能は、両方のアクティビティで同じです。
用語のリレーションの設定
ドメイン管理では、1 つのドメインの用語ベースのリレーションシップを指定し、1 つの値に変更を指定できます。
複合ドメイン
複合ドメインは、それぞれが共通データに関する知識を含む 2 つ以上の単一ドメインで構成される構造です。 複合ドメインでアドレス指定できるデータの例としては、名前フィールドの先頭、中央、家族名、住所フィールドの番地と番地、市区町村、都道府県、郵便番号、国/地域などがあります。 1 つのフィールドを複合ドメインにマップすると、DQS は 1 つのフィールドのデータを、複合を構成する複数のドメインに解析します。
1 つのドメインがフィールド データ全体を表さない場合があります。 複合ドメイン内の複数のドメインをグループ化すると、効率的な方法でデータを表すことができます。 複合ドメインを使用する利点を次に示します。
複合ドメインを構成するさまざまな単一ドメインを分析すると、データ品質をより効果的に評価できます。
複合ドメインを使用する場合は、複数のドメイン内のデータ間のリレーションシップが適切であることを確認できるクロスドメイン ルールを作成することもできます。 たとえば、都市ドメインの文字列 "London" が、国/地域ドメインの文字列 "England" に対応していることを確認できます。 ドメイン間の規則は、ドメイン ルールの後に考慮されることに注意してください。
複合ドメイン内のデータは参照データ ソースにアタッチできます。その場合、複合ドメインは参照データ プロバイダーに送信されます。 これは、多くの場合、アドレス データで行われます。
複合ドメインによって表されるデータの解析方法は、複合ドメインのプロパティによって決まります。 データは、区切り記号、ドメインの順序、または複合ドメインにアタッチされているドメインのナレッジに基づいて解析できます (複合ドメインの [ナレッジ ベースの解析を使用 ] プロパティを選択)。 詳細については、「 複合ドメインのプロパティの設定」を参照してください。
複合ドメインは、単一ドメインとは異なる方法で管理されます。 複合ドメイン内の値は管理しません。これは、複合ドメインを構成する単一ドメインに対して行います。 ただし、ドメイン管理アクティビティのドメインリストから、複合ドメイン内の異なる値とそれらに適用される統計情報の間の関係を確認できます。 たとえば、同じ 5 つの文字列値で構成される 1 つのアドレスのインスタンスの数を確認できます。 Knowledge Discovery アクティビティの検出ステップでは、プロファイリングは複合ドメインではなく複合ドメイン内の単一ドメインに対して実行されます。 ただし、対話型クレンジングでは、単一ドメインではなく複合ドメイン内のデータをクレンジングします。
照合は、複合ドメインを構成する単一ドメインで実行できますが、複合ドメイン自体では実行できません。
データ照合
ドメイン管理を通じてナレッジ ベースに手動で変更を加えるだけでなく、一致するナレッジをナレッジ ベースに追加することもできます。 データ重複除去プロセス用に DQS を準備するには、DQS が照合の確率を計算するために使用する照合ポリシーを作成する必要があります。 このポリシーには、DQS がデータ行を比較する方法を識別するためにデータ スチュワードが作成する 1 つ以上の一致ルールが含まれています。 データ スチュワードは、行内のどのデータ フィールドを比較するか、および比較で各フィールドの重みを決定します。 また、データ スチュワードは、一致と見なされる確率の高さを決定します。 DQS は、データ品質プロジェクトで照合アクティビティを実行するために使用する照合ルールをナレッジ ベースに追加します。
ナレッジ ベースとデータマッチングの詳細については、「 データマッチング」を参照してください。
このセクションにて
ナレッジ ベースとそのドメインに対して、次の操作を実行できます。
| ナレッジ ベースを作成し、開き、ナレッジを追加して、ナレッジの発見を行う | ナレッジ ベースの構築 |
| ドメインとナレッジ ベースに対してインポート操作とエクスポート操作を実行する | ナレッジのインポートとエクスポート |
| 1 つのドメイン、ドメイン ルール、用語ベースのリレーションを作成し、ドメイン値を変更する | ドメインの管理 |
| 複合ドメインの作成、クロスドメイン ルールの作成、値の関係の使用 | 複合ドメインの管理 |
| DQS に組み込まれている既定の DQS データ ナレッジ ベースを使用する | DQS の既定のナレッジ ベースの使用 |