適用対象:Foundry (クラシック) ポータル。 この記事は、新しい Foundry ポータルでは使用できません。
新しいポータルの詳細を確認します。
メモ
この記事のリンクは、現在表示している Foundry (クラシック) ドキュメントではなく、新しい Microsoft Foundry ドキュメントのコンテンツを開く場合があります。
Foundry モデル カタログには、さまざまなプロバイダーからMicrosoft Foundry モデルが多数用意されています。 モデル カタログからモデルをデプロイするためのさまざまなオプションがあります。 この記事では、サーバーレス API デプロイの推論例を示します。
重要
プレビュー段階のモデルは、モデル カタログ内のモデル カードで プレビュー としてマークされます。
モデルで推論を実行するには、 Nixtla の TimeGEN-1 や Cohere rerank などの一部のモデルで、モデル プロバイダーのカスタム API を使用する必要があります。 他のユーザーは、 モデル推論 API を使用した推論をサポートしています。 Foundry ポータルのモデル カタログでモデル カードを確認することで、個々のモデルの詳細を確認できます。
コヒア (Cohere)
Cohere のモデル ファミリには、rerank、チャットの完了、埋め込みモデルなど、さまざまなユース ケース向けに最適化されたさまざまなモデルが含まれています。
推論の例: Cohere コマンドと埋め込み
次の表は、Cohere モデルの使用方法の例へのリンクを示しています。
| 説明 | Language | サンプル |
|---|---|---|
| Web リクエスト | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| C 用の Azure AI 推論パッケージ# | C# | Link |
| JavaScript 用の ai 推論パッケージのAzure | JavaScript | Link |
| Python用Azure AI Inferenceパッケージ | Python | リンク |
| OpenAI SDK (試験段階) | Python | リンク |
| LangChain | Python | リンク |
| Cohere SDK | Python |
コマンド 埋め込み |
| LiteLLM SDK | Python | Link |
取得拡張生成 (RAG) とツールの使用サンプル: Cohere コマンドと埋め込み
| 説明 | パッケージ | サンプル |
|---|---|---|
| Cohere 埋め込みを使用してローカルの Facebook AI 類似性検索 (FAISS) ベクター インデックスを作成する - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Cohere Command R/R+ を使用して、ローカル FAISS ベクター インデックスのデータからの質問に回答する - Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Cohere Command R/R+ を使用して AI 検索ベクター インデックスのデータからの質問に回答する - Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Cohere Command R/R+ を使用して AI 検索ベクター インデックスのデータからの質問に回答する - Cohere SDK |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| LangChain を使用した R+ ツール/関数呼び出しのコマンド |
cohere、 langchain、 langchain_cohere |
command_tools-langchain.ipynb |
Cohere rerank
Cohere rerank モデルで推論を実行するには、Cohere のカスタム rerank API を使用する必要があります。 Cohere rerank モデルとその機能の詳細については、 Cohere rerank を参照してください。
Cohere Rerank モデルの価格
クエリは、ユーザーのクエリと混同しないように、Cohere Rerank モデルの推論の入力として使用されるトークンに関連するコストを指す価格メーターです。 Cohere では、1 つの検索単位がクエリとしてカウントされ、最大 100 個のドキュメントがランク付けされます。 検索クエリの長さを含めると、500 個を超えるトークン (Cohere-rerank-v3.5 の場合) または 4096 個を超えるトークン (Cohere-rerank-v3-English および Cohere-rerank-v3-multilingual の場合) が複数のチャンクに分割され、各チャンクは 1 つのドキュメントとしてカウントされます。
Foundry ポータルの Cohere モデル コレクションを参照してください。
Core42
次の表は、Jais モデルの使用方法の例へのリンクを示しています。
| 説明 | Language | サンプル |
|---|---|---|
| C 用の Azure AI 推論パッケージ# | C# | Link |
| Azure AI 推論パッケージ JavaScript 用 | JavaScript | Link |
| Python用 Azure AI 推論パッケージ | Python | リンク |
DeepSeek
DeepSeek のモデル ファミリには DeepSeek-R1 が含まれています。DeepSeek-R1 は、言語、科学的推論、コーディング タスク、DeepSeek-V3-0324、エキスパート混合 (MoE) 言語モデルなど、段階的なトレーニング プロセスを使用した推論タスクに優れています。
次の表は、DeepSeek モデルの使用方法の例へのリンクを示しています。
| 説明 | Language | サンプル |
|---|---|---|
| Python 用 Azure AI 推論パッケージ | Python | リンク |
| Azure AI推論パッケージ JavaScript用 | JavaScript | リンク |
| C 用の Azure AI 推論パッケージ# | C# | リンク |
| Java向けのAzure AI推論パッケージ | Java | Link |
メタ
Meta Llama のモデルとツールは、事前トレーニングおよび微調整された生成 AI テキストと画像推論モデルのコレクションです。 メタ モデルの範囲は、次を含むようにスケールされます。
- デバイス上およびエッジでの推論用の1Bや3Bベースモデル、インストラクトモデルなどの小規模言語モデル (SLM)
- 7B、8B、70B の基本モデルや指示モデルなどの中規模の大規模言語モデル (LLM)
- Meta Llama 3.1-405B などの高パフォーマンスモデル合成データの生成と蒸留のユース ケースに関する指示。
- 高パフォーマンスのネイティブマルチモーダル モデルである Llama 4 Scout と Llama 4 Maverick は、エキスパートの混合アーキテクチャを活用して、テキストと画像の理解において業界をリードするパフォーマンスを提供します。
次の表は、Meta Llama モデルの使用方法の例へのリンクを示しています。
| 説明 | Language | サンプル |
|---|---|---|
| CURLリクエスト | Bash | リンク |
| C 用の Azure AI 推論パッケージ# | C# | Link |
| JavaScript 用の ai 推論パッケージのAzure | JavaScript | Link |
| Python用の AI 推論パッケージをAzureする | Python | リンク |
| Pythonのウェブリクエスト | Python | リンク |
| OpenAI SDK (試験段階) | Python | リンク |
| LangChain | Python | リンク |
| LiteLLM | Python | リンク |
Microsoft
Microsoftモデルには、MAI モデル、Phi モデル、医療 AI モデルなど、さまざまなモデル グループが含まれます。 使用可能なすべてのMicrosoft モデルを表示するには、foundry portal で Microsoft モデル コレクションを表示します。
次の表は、Microsoft モデルの使用方法の例へのリンクを示しています。
| 説明 | Language | サンプル |
|---|---|---|
| C 用の Azure AI 推論パッケージ# | C# | Link |
| JavaScript 用の ai 推論パッケージのAzure | JavaScript | Link |
| Azure AI 推論用の Python パッケージ | Python | リンク |
| LangChain | Python | リンク |
| Llama-Index | Python | リンク |
Foundry ポータルの Microsoft モデル コレクションを参照してください。
Mistral AI
Mistral AI には、次の 2 つのカテゴリのモデルが用意されています。
- Premium モデル: これらには、Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3 (25.05)、および Ministral 3B モデルが含まれており、従量課金制トークンベースの課金でサーバーレス API として利用できます。
- オープンモデル:ミストラル-small-2503、 Codestral、および Mistral Nemo (従量課金制トークン ベースの課金でサーバーレス API として利用できます)、Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01、Mistral-7B-v01 (セルフホステッドマネージド エンドポイントでダウンロードして実行できます)。
次の表は、Mistral モデルの使用方法の例へのリンクを示しています。
| 説明 | Language | サンプル |
|---|---|---|
| CURL リクエスト | Bash | リンク |
| C 用の Azure AI 推論パッケージ# | C# | Link |
| JavaScript 用の ai 推論パッケージのAzure | JavaScript | Link |
| Azure の Python 用 AI 推論パッケージ | Python | リンク |
| PythonのWebリクエスト | Python | リンク |
| OpenAI SDK (試験段階) | Python | Mistral - OpenAI SDK サンプル |
| LangChain | Python | Mistral - LangChain サンプル |
| Mistral AI | Python | Mistral - Mistral AI サンプル |
| LiteLLM | Python | Mistral - LiteLLM サンプル |
Nixtla
Nixtla の TimeGEN-1 は、時系列データ用の生成的な事前トレーニング済みの予測および異常検出モデルです。 TimeGEN-1 では、履歴値と外因性共変量のみを入力として使用して、トレーニングなしで新しい時系列の正確な予測を生成できます。
推論を実行するには、TimeGEN-1 で Nixtla のカスタム推論 API を使用する必要があります。 TimeGEN-1 モデルとその機能の詳細については、 Nixtla を参照してください。
必要なトークンの数を見積もる
TimeGEN-1 デプロイを作成する前に、使用して課金するトークンの数を見積もると便利です。 1 つのトークンは、入力データセットまたは出力データセット内の 1 つのデータ ポイントに対応します。
次の入力時系列データセットがあるとします。
| Unique_id | タイムスタンプ | ターゲット変数 | 外因性変数 1 | 外因性変数 2 |
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
トークンの数を決定するには、行数 (この例では 2 つ) と予測に使用される列の数を乗算し、unique_id列とタイムスタンプ列 (この例では 3 列) をカウントせず、合計 6 個のトークンを取得します。
次の出力データセットを指定します。
| Unique_id | タイムスタンプ | 予測ターゲット変数 |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
また、データ予測後に返されるデータ ポイントの数をカウントすることで、トークンの数を決定することもできます。 この例では、トークンの数は 2 です。
トークンに基づいて価格を見積もる
支払う価格を決定する 4 つの価格メーターがあります。 これらのメーターは次のとおりです。
| 価格メーター | 説明 |
|---|---|
| paygo-inference-input-tokens | finetune_steps = 0 のときに推論の入力として使用されるトークン に 関連付けられているコスト |
| ペイゴー推論出力トークン | finetune_steps = 0 のとき、推論の出力として使用されるトークンに関連するコスト |
| paygo-微調整済みモデル-推論-input-tokens | finetune_steps> 0 のときに推論の入力として使用されるトークンに関連付けられているコスト |
| ペイゴーファインチューンドモデル推論出力トークン | finetune_steps> 0 のときに推論の出力として使用されるトークンに関連付けられているコスト |
Foundry ポータルの Nixtla モデル コレクションを参照してください。
安定性 AI
サーバーレス API デプロイを介してデプロイされた安定性 AI モデルは、ルート /image/generationsにモデル推論 API を実装します。
安定性 AI モデルの使用方法の例については、次の例を参照してください。
- テキストから画像への要求に対して安定性 AI モデルを使用する OpenAI SDK を使用します
- テキストから画像への要求に対する安定性 AI モデルを備えた要求ライブラリを使用します
- Requestsライブラリを使用して、Stable Diffusion 3.5 Large で画像間のリクエストを行います
- 完全にエンコードされた画像生成応答のサンプル
Gretel Navigator
Gretel Navigator は、10 を超える業界ドメインにわたって微調整された、オープンソースの上位の小規模言語モデル (SMM) を組み合わせることにより、合成データ用に特別に設計された複合 AI アーキテクチャを採用しています。 この専用システムは、数億から数百万の例の規模で、ドメイン固有のさまざまなデータセットを作成します。 また、このシステムは複雑な統計的関係を維持し、手動でのデータ作成と比較して速度と精度を向上させます。
| 説明 | Language | サンプル |
|---|---|---|
| JavaScript 用の ai 推論パッケージのAzure | JavaScript | リンク |
| Python用Azure AI Inferenceパッケージ | Python | リンク |