ナレッジベースのデータソースを構成する

9 分

ナレッジベースは、その中に含まれるデータの品質にかかっています。 Foundry IQ を使用すると、複数のデータソースに接続できるため、AI エージェントは質問に正確に答えるために必要な情報にアクセスできます。これらのソースは、ナレッジベースを設定するときに構成し、エージェントが特定のユースケースに適したコンテキストを持っている必要があることを確認します。

使用するデータソースを理解することは、データが存在する場所と、データにアクセスする必要がある方法によって異なります。 Foundry IQ では、次の 6 種類のプライマリデータソースがサポートされています。

データソース	アクセスの種類	最適な対象者
Azure AI Search インデックス	インデックス付き	カスタムパイプラインを使用したエンタープライズ検索
Azure Blob Storage	直接	Azure Storage のドキュメントファイル
Web	リアルタイム	Bingを介した現在の公開情報
SharePoint (リモート)	リアルタイム	Microsoft 365 ガバナンスを使用したライブ SharePoint コンテンツ
SharePoint (インデックス付き)	インデックス付き	カスタムパイプラインを使用した SharePoint での高度な検索
OneLake	直接	Microsoft Fabric の非構造化データ

リアルタイムソースを使用すると、現在の情報を取得できます。 SharePoint や OneLake などの内部データソースでは、セキュリティとガバナンスを維持しながら、エージェントに独自の知識へのアクセス権を付与します。

Azure AI Search インデックス

Azure AI Search Index には、Foundry IQ ナレッジベース用のエンタープライズ規模の検索機能が用意されています。このオプションは、Azure AI Search に既に投資していて、既存の検索インデックスを使用する場合に最適です。

このソースを使用すると、Azure AI Search インデックスに直接接続します。これには、既に処理してインデックスを作成した複数のオリジンからのデータを含めることができます。これは、Azure AI Search で提供されるセマンティックランク付け、フィルター、カスタムスコアリングプロファイルなどの高度な検索機能が必要な場合に特に重要になります。

ヒント

Azure AI Search の詳細と、ナレッジベースの検索インデックスを作成および管理する方法について説明します。

エージェントは、このインデックスに対してクエリを実行して、ユーザーの質問に基づいて関連情報を取得できます。主な利点は次のとおりです。

セマンティックランク付け - キーワードの一致だけでなく、コンテキストに関連する結果を検索します
カスタムスコアリング - ビジネスロジックに基づいて結果に優先順位を付ける
ファセットナビゲーション - カテゴリまたは属性で結果をフィルター処理する
複数言語のサポート - さまざまな言語でコンテンツを処理する

Azure Blob Storage

Azure Blob Storage を使用すると、BLOB コンテナーからドキュメントとファイルを直接取得できます。特定のコンテナーまたは BLOB を選択すると、Foundry IQ によってコンテンツが処理され、エージェントで使用できるようになります。

このソースは、Azure Blob Storage にドキュメントを格納する場合に適切に機能します。一般的なファイルの種類は次のとおりです。

PDF ドキュメント
Microsoft Word ファイル (.docx)
テキストファイル (.txt)
Markdown ファイル (.md)
HTML ファイル

注

インデックスを作成して管理する必要がある Azure AI Search とは異なり、Blob Storage では、ファイルからナレッジベースへのより直接的なパスが提供されます。

この概念に基づいて、トピックまたはアクセスレベルに基づいて BLOB をコンテナーに整理できるため、エージェントがアクセスできる情報を簡単に管理できます。この組織は、ナレッジベースを最新の状態に保ちながら、データガバナンスを維持するのに役立ちます。

Web

Web アクセスは、Bing経由でインターネットからのリアルタイムコンテンツをエージェントに提供します。エージェントは、静的な内部データのみに依存するのではなく、質問に答えるときに現在の情報を検索できます。

これは、ユーザーが次のことを尋ねるときに特に重要になります。

最近のイベントまたはニュース
現在の価格または可用性
頻繁に変更される情報
内部ナレッジベース以外のトピック

Important

Web grounding では、Bingの検索結果に依存しています。つまり、エージェントが参照する特定のソースを制御しにくくなります。精度とソース検証が重要な場合は、代わりにインデックス付きの制御されたデータソースを使用することを検討してください。

ヒント

内部知識で回答が得られない場合は、Web アクセスを補助ソースとして使用して、Web グラウンドと内部データソースを組み合わせることができます。

Microsoft SharePoint のオプション

Foundry IQ には、SharePoint に接続するための 2 つの方法が用意されています。それぞれに異なる利点があります。次の表は、これらの方法を比較しています。

特徴	Remote	インデックス付き
アクセス方法	リアルタイムクエリ	前処理済みインデックス
応答時間	SharePoint に依存	より速い
メンテナンス	保持するインデックスがない	インデックスの更新が必要
高度な検索	狹	完全な Azure AI 検索機能
データの鮮度	常に最新	インデックス作成スケジュールに依存
アクセス許可の処理	SharePoint のアクセス許可を尊重する	インデックス作成中に構成される

SharePointリモート

SharePoint Remote は、Microsoft 365 ガバナンスを備えた検索機能を提供し、事前インデックスを作成せずに SharePoint から直接コンテンツを取得します。エージェントは、ユーザーが質問すると、SharePoint サイトとライブラリをリアルタイムで検索します。

リモートアクセスの主な利点:

インデックスのメンテナンスは必要ありません
常に現在の SharePoint コンテンツにアクセスする
既存の SharePoint アクセス許可を自動的に尊重する
より簡単なセットアップと構成

ヒント

SharePoint データへの最も簡単なパスが必要で、高度な検索機能が必要ない場合は、SharePoint Remote を使用します。

SharePoint インデックス付き

SharePoint Indexed では、カスタムパイプライン用の Azure AI Search に SharePoint コンテンツのインデックスを作成することで、異なるアプローチを採用しています。リアルタイムで SharePoint に対してクエリを実行するリモートアクセスとは異なり、インデックス作成では SharePoint コンテンツが事前に処理されます。

この前処理は、応答時間の短縮とより高度な検索機能を意味します。インデックス付きコンテンツを使用すると、次のことができます。

特殊な用語にカスタムアナライザーを適用する
AI サービスを使用してエンリッチメントパイプラインを構築する
SharePoint データを他のソースと結合する
特殊な検索エクスペリエンスを作成する

注

インデックス付き SharePoint は、高度な検索機能が必要な場合や、SharePoint データを Azure AI Search インデックス内の他のソースと統合する場合に最適です。

Microsoft OneLake

Microsoft OneLake は、Microsoft Fabric Data Lakehouse に格納されている非構造化データへのアクセスを提供します。 OneLake に接続して、Lakehouse に格納されているファイルとドキュメントを取得し、このデータをナレッジベースで使用できるようにします。

ヒント

Microsoft Fabric OneLake の詳細と、それが組織の統合データレイクとして機能する方法について説明します。

このオプションは、組織がデータ分析とストレージに Microsoft Fabric を使用する場合に重要です。一般的なユースケースは次のとおりです。

ビジネスインテリジェンスレポート - エージェントの応答で分析結果を参照する
データドキュメント - データセットとメトリックに関するコンテキストを提供する
分析結果 - データサイエンス作業から分析情報を共有する
研究の成果 - 会話型 AI を通じて調査にアクセスできるようにします

この接続により、エージェントはビジネス上の質問に回答するときにこの情報を参照し、組織の分析作業に基づいてデータドリブンの応答を提供できます。

適切なデータソースを選択する

適切なデータソースの選択は、いくつかの要因によって異なります。この決定ガイドを使用します。

データが〜の場合...	そして、あなたが必要なものは…	選択。。。
SharePoint で	シンプルなセットアップ、常に最新	SharePointリモート
SharePoint で	高度な検索、カスタムパイプライン	SharePoint インデックス付き
Azure 内のファイル	ファイルへの直接アクセス	Azure Blob Storage
Microsoft Fabric の場合	Data Lakehouse コンテンツ	OneLake
既にインデックスが作成されている	既存の Azure AI Search への投資	Azure AI Search インデックス
公開されている最新の情報	リアルタイム Web コンテンツ	Web

Important

1 つのナレッジベースに複数のソースを組み合わせることができます。たとえば、現在のイベントまたは補足情報の Web グラウンドを有効にしながら、内部 SharePoint データをプライマリナレッジベースとして使用します。

フィードバック

このページはお役に立ちましたか?

ナレッジ ベースのデータ ソースを構成する