ナレッジ ベースのデータ ソースを構成する

完了

ナレッジ ベースは、その中に含まれるデータの品質にかかっています。 Foundry IQ を使用すると、複数のデータ ソースに接続できるため、AI エージェントは質問に正確に答えるために必要な情報にアクセスできます。 これらのソースは、ナレッジ ベースを設定するときに構成し、エージェントが特定のユース ケースに適したコンテキストを持っている必要があることを確認します。

使用するデータ ソースを理解することは、データが存在する場所と、データにアクセスする必要がある方法によって異なります。 Foundry IQ では、次の 6 種類のプライマリ データ ソースがサポートされています。

データ ソース アクセスの種類 最適な対象者
Azure AI Search インデックス インデックス付き カスタム パイプラインを使用したエンタープライズ検索
Azure Blob Storage 直接 Azure Storage のドキュメント ファイル
Web リアルタイム Bingを介した現在の公開情報
SharePoint (リモート) リアルタイム Microsoft 365 ガバナンスを使用したライブ SharePoint コンテンツ
SharePoint (インデックス付き) インデックス付き カスタム パイプラインを使用した SharePoint での高度な検索
OneLake 直接 Microsoft Fabric の非構造化データ

リアルタイム ソースを使用すると、現在の情報を取得できます。 SharePoint や OneLake などの内部データ ソースでは、セキュリティとガバナンスを維持しながら、エージェントに独自の知識へのアクセス権を付与します。

Azure AI Search インデックス

Azure AI Search Index には、Foundry IQ ナレッジ ベース用のエンタープライズ規模の検索機能が用意されています。 このオプションは、Azure AI Search に既に投資していて、既存の検索インデックスを使用する場合に最適です。

このソースを使用すると、Azure AI Search インデックスに直接接続します。これには、既に処理してインデックスを作成した複数のオリジンからのデータを含めることができます。 これは、Azure AI Search で提供されるセマンティック ランク付け、フィルター、カスタム スコアリング プロファイルなどの高度な検索機能が必要な場合に特に重要になります。

ヒント

Azure AI Search の詳細と、ナレッジ ベースの検索インデックスを作成および管理する方法について説明します。

エージェントは、このインデックスに対してクエリを実行して、ユーザーの質問に基づいて関連情報を取得できます。 主な利点は次のとおりです。

  • セマンティック ランク付け - キーワードの一致だけでなく、コンテキストに関連する結果を検索します
  • カスタム スコアリング - ビジネス ロジックに基づいて結果に優先順位を付ける
  • ファセット ナビゲーション - カテゴリまたは属性で結果をフィルター処理する
  • 複数言語のサポート - さまざまな言語でコンテンツを処理する

Azure Blob Storage

Azure Blob Storage を使用すると、BLOB コンテナーからドキュメントとファイルを直接取得できます。 特定のコンテナーまたは BLOB を選択すると、Foundry IQ によってコンテンツが処理され、エージェントで使用できるようになります。

このソースは、Azure Blob Storage にドキュメントを格納する場合に適切に機能します。 一般的なファイルの種類は次のとおりです。

  • PDF ドキュメント
  • Microsoft Word ファイル (.docx)
  • テキスト ファイル (.txt)
  • Markdown ファイル (.md)
  • HTML ファイル

インデックスを作成して管理する必要がある Azure AI Search とは異なり、Blob Storage では、ファイルからナレッジ ベースへのより直接的なパスが提供されます。

この概念に基づいて、トピックまたはアクセス レベルに基づいて BLOB をコンテナーに整理できるため、エージェントがアクセスできる情報を簡単に管理できます。 この組織は、ナレッジ ベースを最新の状態に保ちながら、データ ガバナンスを維持するのに役立ちます。

Web

Web アクセスは、Bing経由でインターネットからのリアルタイム コンテンツをエージェントに提供します。 エージェントは、静的な内部データのみに依存するのではなく、質問に答えるときに現在の情報を検索できます。

これは、ユーザーが次のことを尋ねるときに特に重要になります。

  • 最近のイベントまたはニュース
  • 現在の価格または可用性
  • 頻繁に変更される情報
  • 内部ナレッジ ベース以外のトピック

Important

Web grounding では、Bingの検索結果に依存しています。つまり、エージェントが参照する特定のソースを制御しにくくなります。 精度とソース検証が重要な場合は、代わりにインデックス付きの制御されたデータ ソースを使用することを検討してください。

ヒント

内部知識で回答が得られない場合は、Web アクセスを補助ソースとして使用して、Web グラウンドと内部データ ソースを組み合わせることができます。

Microsoft SharePoint のオプション

Foundry IQ には、SharePoint に接続するための 2 つの方法が用意されています。それぞれに異なる利点があります。 次の表は、これらの方法を比較しています。

特徴 Remote インデックス付き
アクセス方法 リアルタイム クエリ 前処理済みインデックス
応答時間 SharePoint に依存 より速い
メンテナンス 保持するインデックスがない インデックスの更新が必要
高度な検索 完全な Azure AI 検索機能
データの鮮度 常に最新 インデックス作成スケジュールに依存
アクセス許可の処理 SharePoint のアクセス許可を尊重する インデックス作成中に構成される

SharePointリモート

SharePoint Remote は、Microsoft 365 ガバナンスを備えた検索機能を提供し、事前インデックスを作成せずに SharePoint から直接コンテンツを取得します。 エージェントは、ユーザーが質問すると、SharePoint サイトとライブラリをリアルタイムで検索します。

リモート アクセスの主な利点:

  • インデックスのメンテナンスは必要ありません
  • 常に現在の SharePoint コンテンツにアクセスする
  • 既存の SharePoint アクセス許可を自動的に尊重する
  • より簡単なセットアップと構成

ヒント

SharePoint データへの最も簡単なパスが必要で、高度な検索機能が必要ない場合は、SharePoint Remote を使用します。

SharePoint インデックス付き

SharePoint Indexed では、カスタム パイプライン用の Azure AI Search に SharePoint コンテンツのインデックスを作成することで、異なるアプローチを採用しています。 リアルタイムで SharePoint に対してクエリを実行するリモート アクセスとは異なり、インデックス作成では SharePoint コンテンツが事前に処理されます。

この前処理は、応答時間の短縮とより高度な検索機能を意味します。 インデックス付きコンテンツを使用すると、次のことができます。

  1. 特殊な用語にカスタム アナライザーを適用する
  2. AI サービスを使用してエンリッチメント パイプラインを構築する
  3. SharePoint データを他のソースと結合する
  4. 特殊な検索エクスペリエンスを作成する

インデックス付き SharePoint は、高度な検索機能が必要な場合や、SharePoint データを Azure AI Search インデックス内の他のソースと統合する場合に最適です。

Microsoft OneLake

Microsoft OneLake は、Microsoft Fabric Data Lakehouse に格納されている非構造化データへのアクセスを提供します。 OneLake に接続して、Lakehouse に格納されているファイルとドキュメントを取得し、このデータをナレッジ ベースで使用できるようにします。

ヒント

Microsoft Fabric OneLake の詳細と、それが組織の統合データ レイクとして機能する方法について説明します。

このオプションは、組織がデータ分析とストレージに Microsoft Fabric を使用する場合に重要です。 一般的なユース ケースは次のとおりです。

  • ビジネス インテリジェンス レポート - エージェントの応答で分析結果を参照する
  • データ ドキュメント - データセットとメトリックに関するコンテキストを提供する
  • 分析結果 - データ サイエンス作業から分析情報を共有する
  • 研究の成果 - 会話型 AI を通じて調査にアクセスできるようにします

この接続により、エージェントはビジネス上の質問に回答するときにこの情報を参照し、組織の分析作業に基づいてデータドリブンの応答を提供できます。

適切なデータ ソースを選択する

適切なデータ ソースの選択は、いくつかの要因によって異なります。 この決定ガイドを使用します。

データが〜の場合... そして、あなたが必要なものは… 選択。。。
SharePoint で シンプルなセットアップ、常に最新 SharePointリモート
SharePoint で 高度な検索、カスタム パイプライン SharePoint インデックス付き
Azure 内のファイル ファイルへの直接アクセス Azure Blob Storage
Microsoft Fabric の場合 Data Lakehouse コンテンツ OneLake
既にインデックスが作成されている 既存の Azure AI Search への投資 Azure AI Search インデックス
公開されている最新の情報 リアルタイム Web コンテンツ Web

Important

1 つのナレッジ ベースに複数のソースを組み合わせることができます。 たとえば、現在のイベントまたは補足情報の Web グラウンドを有効にしながら、内部 SharePoint データをプライマリ ナレッジ ベースとして使用します。