次の方法で共有


複合ドメインでデータをクレンジングする

このトピックでは、Data Quality Services (DQS) の複合ドメインのクレンジングについて説明します。 複合ドメインは 2 つ以上の単一ドメインで構成され、複数の関連用語で構成されるデータ フィールドにマップされます。 複合ドメイン内の個々のドメインには、共通の知識領域が必要です。 複合ドメインの詳細については、「 複合ドメインの管理」を参照してください。

ソース データへの複合ドメインのマッピング

ソース データを複合ドメインにマップするには、次の 2 つの方法があります。

  • ソース データは、複合ドメインにマップされる 1 つのフィールド (フル ネームなど) です。

    • 複合ドメインが参照データ サービスにマップされている場合、ソース データは、修正と解析のために参照データ サービスにそのまま送信されます。

    • 複合ドメインが参照データ サービスにマップされていない場合は、複合ドメインに対して定義されている解析方法に基づいて解析されます。 複合ドメインの解析方法の指定の詳細については、「複合ドメインの作成」を参照してください。

  • ソース データは、複合ドメイン内の個々のドメインにマップされる複数のフィールド (名、ミドル ネーム、姓など) で構成されます。

複合ドメインをソース データにマップする方法の例については、「参照データへの ドメインまたは複合ドメインのアタッチ」を参照してください。

明確なクロスドメイン ルールを使用したデータ修正

複合ドメインのクロスドメイン ルールを使用すると、複合ドメイン内の個々のドメイン間の関係を示すルールを作成できます。 クロスドメイン ルールは、複合ドメインを含むソース データに対してクレンジング アクティビティを実行するときに考慮されます。 クロスドメインルールの有効性を知らせるだけでなく、最終的なThenクロスドメインルールである「値が等しい」は、データクレンジングプロセスでデータを修正する役割も果たします。

次の例を考えてみましょう。ProductName、CompanyName、ProductVersion の 3 つのドメインを持つ複合ドメイン Product があります。 次の明確なクロスドメイン ルールを作成します。

ドメイン 'CompanyName' の値が Microsoft を含み、ドメイン 'ProductName' の値が Office に等しく、'ProductVersion' の値が 2010 に等しい場合、ドメイン 'ProductName' の値は Microsoft Office 2010 に等しい。

このクロスドメイン ルールを実行すると、クレンジング アクティビティの後にソース データ (ProductName) が次のように修正されます。

ソース データ

ProductName カンパニーネーム 製品バージョン
オフィス Microsoft Inc. 2010

出力データ

ProductName カンパニーネーム 製品バージョン
Microsoft Office 2010 Microsoft Inc. 2010

決定的な Then クロスドメイン ルールをテストすると、[ 値は等しい]、[ 複合ドメイン ルールのテスト ] ダイアログ ボックスには、正しいデータが表示される新しい列 "修正先" が表示されます。 クレンジング データ品質プロジェクトでは、この明確なクロスドメイン ルールによってデータが 100% 信頼度で変更され、[ 理由 ] 列に "Rule '<Cross-Domain Rule Name>' というメッセージが表示されます。 クロスドメイン ルールの詳細については、「クロスドメイン ルールの作成」を参照してください。

決定的なクロスドメイン ルールは、参照データ サービスにアタッチされている複合ドメインでは機能しません。

複合ドメインのデータ プロファイル

DQS プロファイルでは、クレンジング アクティビティ中の 完全性 (データが存在する範囲) と 精度 (データを意図した用途に使用できる範囲) の 2 つのデータ品質ディメンションが提供されます。 プロファイリングでは、複合ドメインの信頼性の高い完全性の統計情報が提供されない場合があります。 完全性統計が必要な場合は、複合ドメインではなく単一ドメインを使用します。 複合ドメインを使用する場合は、プロファイリング用に 1 つのドメインを持つ 1 つのナレッジ ベースを作成し、完全性を判断し、クレンジング アクティビティ用の複合ドメインを持つ別のドメインを作成することができます。 たとえば、プロファイルでは、複合ドメインを使用する住所レコードに対して 95% の完全性が示されますが、いずれかの列 (郵便番号 ( 郵便番号) コード列など) に対して、はるかに高いレベルの不完全性が存在する可能性があります。 この例では、1 つのドメインで郵便番号列の完全性を測定できます。

プロファイリングでは、複数の列の精度を一緒に測定できるため、複合ドメインの信頼性の高い精度の統計情報が提供される可能性があります。 このデータの値は複合集計に含まれているため、複合ドメインを使用して精度を測定できます。

クレンジング アクティビティ中のデータ プロファイルの詳細については、「DQS (内部) ナレッジを使用してデータをクレンジングする」のプロファイラー統計を参照してください。