現在表示中:Foundry (クラシック) ポータルのバージョン - 新しい Foundry ポータルのバージョンに切り替える
重要
この記事でマークされている項目 (プレビュー) は、現在パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境のワークロードにはお勧めしません。 特定の機能がサポートされていないか、機能が制限されている可能性があります。 詳細については、「Microsoft Azure プレビューの使用条件を参照してください。
AI アプリケーションのライフサイクルには、AI システムが正確で関連性の高い信頼性の高い出力を確実に提供するために、堅牢な評価フレームワークが必要です。 厳密な評価がないと、AI システムは、不正確、一貫性がない、根拠が不十分、または有害な可能性のある応答を生成するリスクがあります。 可観測性により、チームは、モデルの選択から運用監視まで、開発ライフサイクル全体を通じて AI 出力の品質と安全性の両方を測定および改善できます。
メモ
Microsoft Foundry SDK for evaluation および Foundry ポータルはパブリック プレビュー段階ですが、API はモデルとデータセットの評価に一般提供されています (エージェントの評価はパブリック プレビューのままです)。 この記事でマークされている Azure AI Evaluation SDK とエバリュエーター (プレビュー) は、現在、あらゆる場所でパブリック プレビュー段階にあります。
可観測性とは
AI 可観測性とは、AI システムのライフサイクル全体を通じて監視、理解、トラブルシューティングを行う機能を指します。 Teams は、自動化された品質ゲートを追跡、評価、CI/CD パイプラインに統合し、評価メトリック、ログ、トレース、モデル出力などのシグナルを収集して、パフォーマンス、品質、安全性、運用の正常性を可視化できます。
コア可観測性機能
Microsoft Foundry には、AI アプリケーション ライフサイクル全体で包括的な可観測性を実現するために連携する 3 つのコア機能が用意されています。
評価
エバリュエーターは、開発全体にわたる AI 応答の品質、安全性、信頼性を測定します。 Microsoft Foundry は、汎用品質メトリック (一貫性、流暢さ)、RAG 固有のメトリック (根拠、関連性)、安全性とセキュリティ (ヘイト/不公平、暴力、保護された素材)、エージェント固有のメトリック (ツール呼び出しの精度、タスクの完了) の組み込みエバリュエーターを提供します。 Teams では、ドメイン固有の要件に合わせて調整されたカスタム エバリュエーターを構築することもできます。
組み込みのエバリュエーターの完全な一覧については、 組み込みのエバリュエーターリファレンスを参照してください。
監視
運用環境の監視により、デプロイされた AI アプリケーションは、実際の状況で品質とパフォーマンスを維持できます。 Azure Monitor Application Insights と統合された Microsoft Foundry は、運用メトリック、トークンの消費量、待機時間、エラー率、品質スコアを追跡するリアルタイムダッシュボードを提供します。 Teams は、出力が品質しきい値に失敗した場合や有害なコンテンツを生成した場合にアラートを設定し、迅速な問題解決を可能にします。
運用監視の設定の詳細については、 生成型 AI アプリケーションの監視 と AI エージェントの継続的な評価に関するページを参照してください。
トレース
分散トレースは、AI アプリケーションの実行フローをキャプチャし、LLM 呼び出し、ツール呼び出し、エージェントの決定、サービス間の依存関係を可視化します。 OpenTelemetry 標準に基づいて構築され、Application Insights と統合されたトレースにより、複雑なエージェントの動作のデバッグ、パフォーマンスのボトルネックの特定、マルチステップ推論チェーンの理解が可能になります。 Microsoft Foundry では、LangChain、Semantic Kernel、OpenAI Agents SDK などの一般的なフレームワークのトレースがサポートされています。
トレースの実装に関するガイダンスについては、「 アプリケーションのトレース 」および 「エージェント SDK を使用したトレース」を参照してください。
エバリュエーターとは
エバリュエーターは、開発ライフサイクル全体にわたる AI 応答の品質、安全性、信頼性を測定する特殊なツールです。
組み込みのエバリュエーターの完全な一覧については、 組み込みのエバリュエーターリファレンスを参照してください。
エバリュエーターは、信頼性、安全性、有効性を確保するために、AI ライフサイクルの各段階に統合されます。
AI アプリケーションライフサイクル評価の 3 つの段階
基本モデルの選択
異なるモデル間で品質、タスクのパフォーマンス、倫理的な考慮事項、および安全プロファイルを比較することで、適切な基盤モデルを選択します。
利用可能なツール: Microsoft Foundry ベンチマークを使用してパブリック データセットまたは独自のデータ上でモデルを比較でき、特定のモデルエンドポイントをテストするためにAzure AI Evaluation SDKを利用できます。
実稼働前の評価
デプロイの前に、徹底的なテストにより、AI エージェントまたはアプリケーションの運用準備が整っていることを確認します。 このステージでは、評価データセットを使用してパフォーマンスを検証し、エッジ ケースを識別し、堅牢性を評価し、タスクの準拠性、接地性、関連性、安全性などの主要なメトリックを測定します。 複数ターンの会話、ツールの呼び出し、状態管理を使用して運用対応エージェントを構築する方法については、 Foundry Agent Service を参照してください。
評価ツールとアプローチ:
独自のデータを取り込む: 品質、安全性、または カスタム エバリュエーターを使用して、独自のデータを使用して AI エージェントとアプリケーションを評価します。 Foundry の評価ウィザードまたは Azure AI Evaluation SDK を使用して、Foundry ポータルで結果を表示。
AI red teaming agent: AI red teaming agent は、Microsoftの PyRIT フレームワークを使用して複雑な敵対攻撃をシミュレートして、安全性とセキュリティの脆弱性を特定します。 人間を介在させたプロセスで最も効果的に使用されます。
または、 Foundry ポータルを 使用して、生成型 AI アプリケーションをテストすることもできます。
運用後の監視
デプロイ後、 継続的な監視 により、AI アプリケーションは実際の条件下で品質を維持できます。
- 運用メトリック: 主要な AI エージェントの運用メトリックの定期的な測定
- 継続的な評価: サンプリングレートでの生産トラフィックの品質と安全性の評価
- スケジュールされた評価: テスト データセットを使用してシステムドリフトを検出するスケジュールされた品質と安全性の評価
- スケジュールされたレッドチーミング: 安全性とセキュリティの脆弱性を調査するための計画的な敵対的テスト
- Azure Monitor アラート: 出力が品質しきい値に失敗した場合や有害なコンテンツが生成された場合の通知
Azure Monitor Application Insights と統合された Foundry Observability ダッシュボードは、パフォーマンス、安全性、品質のメトリックに関するリアルタイムの分析情報を提供し、迅速な問題解決とユーザー信頼の維持を可能にします。
評価チート シート
| 目的 | プロセス | パラメーター、ガイダンス、およびサンプル |
|---|---|---|
| トレースを設定する方法 | 分散トレースを構成する |
アプリケーションをトレースする Agents SDK を使用したトレース |
| 何を評価していますか? | 関連するエバリュエーターを特定または構築する |
組み込みのエバリュエーター カスタム エバリュエーター Python SDK サンプル C# SDK サンプル |
| どのようなデータを使用する必要がありますか? | 関連するデータセットをアップロードまたは生成する |
合成データセットの生成 クラウドで AI レッド チーミングを実行する |
| 評価を実行する方法 | 評価の実行 |
エージェント評価の実行 リモート クラウド実行 ローカル実行 |
| モデル/アプリはどのように実行されましたか? | 結果の分析 | 評価結果を表示する |
| 改善方法を教えてください。 | 評価結果を分析し、エージェントを最適化する | 評価を再実行してエージェントを最適化する方法については、「 ポータルで生成 AI モデルとアプリケーションを評価する」を参照してください。 評価結果を分析します。 |
リージョンのサポート、レート制限、仮想ネットワークのサポート
AI 支援エバリュエーターをサポートするリージョン、評価実行に適用されるレート制限、およびネットワーク分離用の仮想ネットワーク サポートを構成する方法については、 リージョンのサポート、レート制限、評価のための仮想ネットワークのサポートに関するページを参照してください。
価格
リスクと安全性の評価や継続的な評価などの監視機能は、Azure価格ページに記載されている使用量に基づいて課金されます。
重要
エージェントプレイグラウンドの評価は、すべての Foundry プロジェクトに対して既定で有効になり、従量課金ベースの課金に含まれます。 プレイグラウンドの評価をオフにするには、エージェントのプレイグラウンドでメトリック ボックスを選択し、すべてのエバリュエーターの選択を解除します。
関連コンテンツ
- 組み込みのエバリュエーター リファレンス
- 評価のための仮想ネットワークのサポート
Azure AI Evaluation SDK - Foundry を使用して生成 AI アプリを評価する
- Foundry ポータルで評価結果を表示する
- ファウンドリ透明性に関するメモ