概要
このモジュールでは、Foundry モデルを選択、デプロイ、評価するための完全なワークフローについて説明しました。 ベンチマークを使用してモデルの選択に関する情報に基づいた意思決定を行う方法、エンドポイントにモデルをデプロイする方法、さまざまな評価アプローチを使用してパフォーマンスを評価する方法について学習しました。
重要なポイント
Microsoft Foundry ポータルの model カタログは、Microsoft、OpenAI、Meta、Mistral、Hugging Face などのプロバイダーから 1,900 を超えるモデルにaccessを提供します。 コレクション、機能、デプロイ オプション、およびその他の属性による効果的なフィルター処理は、要件に一致するモデルにカタログを絞り込むのに役立ちます。
モデル ベンチマークは、 品質、安全性、コスト、およびパフォーマンスの各ディメンションにわたって客観的な比較を提供します。 精度、一貫性、流暢性などの品質メトリックは、モデルが適切な応答を生成する方法を評価します。 安全メトリックは、有害なコンテンツに関するリスクを識別します。 コスト ベンチマークは、品質と予算の制約のバランスを取るのに役立ちます。 待機時間やスループットなどのパフォーマンス メトリックは、リアルタイム アプリケーションの応答性を示します。
デプロイ オプション には、呼び出しごとの課金の柔軟性を実現するサーバーレス API、一貫した大量のワークロード用にプロビジョニングされたデプロイ、VM ベースのホスティング用のマネージド コンピューティング、コスト最適化された非対話型ジョブのバッチ処理などがあります。 各オプションでは、スケーリング、課金、および制御に異なる特性が提供されます。
プレイグラウンドでのテストでは 、コードを記述することなく、モデルの動作に関するフィードバックがすぐに得られます。 アプリケーションに統合する前に、プロンプトを試したり、パラメーターを調整したり、応答を観察してモデルの機能を理解したりできます。
評価アプローチ は、手動テストから自動メトリックまで多岐に分けられます。 手動評価では、ユーザーの満足度やコンテキストの適切性などの主観的な品質の側面がキャプチャされます。 AI 支援メトリックは、生成の品質と安全性のリスクを自動的に評価します。 F1 スコアや ROUGE などの NLP メトリックは、地上の真理値データに対する数学的比較を提供します。
Microsoft Foundry ポータルの包括的な評価フローを使用すると、テスト データセットと複数のメトリックを使用して体系的な評価を実行できます。 結果は、改善が必要な強み、弱点、および領域を特定し、生成型 AI アプリケーションの反復的な開発を導きます。
次のステップ
モデルをデプロイして評価する場合は、次の手順を検討してください。
Microsoft Foundry ポータルで提供されている SDK、REST API、コード サンプルを使用して、モデルをアプリケーションに統合します。 アプリケーションは、認証された API 呼び出しを通じてデプロイされたモデルを使用できるようになりました。
組織のデータ内の地上モデルの応答に、取得拡張生成 (RAG) を実装します。 RAG は、モデルと検索機能を組み合わせて、ドキュメントとナレッジ ベースに基づいて、コンテキストに応じた正確な応答を提供します。
Apply Azure AI Content Safety サービスにより、有害なコンテンツに対する保護レイヤーが追加されます。 コンテンツ フィルターは不適切な入力と出力をブロックし、モデル レベルの安全機能を補完します。
特定のドメインまたはユース ケースでモデル (サポートされている場合) を微調整して、特殊なシナリオのパフォーマンスを向上させます。 微調整は、汎用モデルを独自の要件に合わせて調整します。
Monitor 運用パフォーマンス Azure Monitor と Application Insights を使用して、使用状況、待機時間、コスト、エラーを追跡します。 継続的な監視により、アプリケーションは正常でパフォーマンスが維持されます。
実際の使用状況データを収集し、定期的な再評価を行うことで、ユーザーのフィードバックに基づいて反復処理します。 継続的な改善により、生成型 AI アプリケーションがユーザーのニーズに合わせて維持されます。
このモジュールで開発したスキル (適切なモデルの選択、効果的なデプロイ、パフォーマンスの評価) は、Microsoft Foundry を使用して堅牢で高品質の生成 AI アプリケーションを構築するための基盤となります。