運用環境での推論のエンドポイント

適用対象:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

機械学習モデルまたはパイプラインをトレーニングした後、またはモデルカタログから適切なモデルを見つけたら、それらを運用環境にデプロイして、他のユーザーが推論に使用できるようにする必要があります。推論とは、新しい入力データを機械学習モデルまたはパイプラインに適用して出力を生成するプロセスです。通常、これらの出力は "予測" と呼ばれますが、推論では、分類やクラスタリングなどの他の機械学習タスクの出力を生成できます。 Azure Machine Learningでは、endpoints を使用して推論を実行します。

エンドポイントとデプロイ

エンドポイントは、モデルの要求または呼び出しに使用できる安定した永続的な URL です。エンドポイントに必要な入力を指定し、出力を受け取ります。 Azure Machine Learningでは、標準のデプロイ、オンラインエンドポイント、バッチエンドポイントがサポートされます。エンドポイントは次の機能を提供します。

安定した永続的な URL ( endpoint-name.region.inference.ml.azure.com など)
認証メカニズム
承認メカニズム

デプロイは、実際の推論を実行するモデルまたはコンポーネントをホストするために必要なリソースとコンピューティングのセットです。エンドポイントにはデプロイが含まれています。オンラインエンドポイントとバッチエンドポイントの場合、1 つのエンドポイントに複数のデプロイを含めることができます。デプロイでは、独立した資産をホストし、資産のニーズに基づいてさまざまなリソースを使用できます。エンドポイントには、任意のデプロイに要求を送信できるルーティングメカニズムもあります。

Azure Machine Learningの一部の種類のエンドポイントは、デプロイで専用リソースを使用します。これらのエンドポイントを実行するには、Azure サブスクリプションのコンピューティングクォータが必要です。ただし、一部のモデルではサーバーレスデプロイがサポートされているため、サブスクリプションからのクォータを使用できません。サーバーレス展開の場合、使用量に基づいて課金されます。

直感

写真から車の種類と色を予測するアプリケーションに取り組んでいるとします。このアプリケーションでは、特定の資格情報を持つユーザーが URL への HTTP 要求を行い、要求の一部として自動車の画像を提供します。その代わりに、ユーザーは車の種類と色を文字列値として含む応答を受け取ります。このシナリオでは、URL はエンドポイントとして機能 します。

エンドポイントの概念を示す図。

次に、データサイエンティストの Alice がアプリケーションを実装しているとします。 Alice には豊富な TensorFlow エクスペリエンスがあり、TensorFlow Hub の ResNet アーキテクチャを使用して Keras シーケンシャル分類子を使用してモデルを実装することにしました。モデルをテストした後、Alice はその結果に満足し、モデルを使用して車の予測問題を解決することにしました。モデルは大きく、実行するには 4 コアの 8 GB のメモリが必要です。このシナリオでは、Alice のモデルと、モデルを実行するために必要なリソース (コードやコンピューティングなど) が エンドポイントの下にデプロイを構成します。

デプロイの概念を示す図。

数か月後、組織は、照明条件の悪い画像に対してアプリケーションのパフォーマンスが低下していることを検出します。もう 1 人のデータサイエンティストである Bob は、モデルがこの要素の堅牢性を構築するのに役立つデータ拡張手法に関する専門知識を持っています。ただし、Bob は PyTorch を使用してモデルを実装し、PyTorch で新しいモデルをトレーニングすることを好みます。 Bob は、組織が古いモデルを廃止する準備ができるまで、運用環境でこのモデルを段階的にテストしたいと考えています。新しいモデルは GPU にデプロイするとパフォーマンスも向上するため、デプロイには GPU を含める必要があります。このシナリオでは、Bob のモデルと、モデルを実行するために必要なリソース (コードやコンピューティングなど) が 、同じエンドポイントの下に別のデプロイを構成します。

複数のデプロイを含むエンドポイントの概念を示す図。

エンドポイント: 標準デプロイ、オンライン、バッチ

Azure Machine Learningでは、標準デプロイ、オンラインエンドポイント、および batch エンドポイントがサポートされます。

標準デプロイ と オンラインエンドポイント は、リアルタイム推論用に設計されています。エンドポイントを呼び出すと、エンドポイントの応答で結果が返されます。標準デプロイでは、サブスクリプションからのクォータは使用されません。代わりに、標準請求で課金されます。

バッチエンドポイントは、 実行時間の長いバッチ推論用に設計されています。バッチエンドポイントを呼び出すと、実際の作業を実行するバッチジョブが生成されます。

標準デプロイ、オンライン、バッチエンドポイントを使用する場合

標準デプロイ:

標準的なデプロイメントを使用して、大規模な基本モデルを、市販されているリアルタイム推論や、そのようなモデルの微調整に利用します。すべてのモデルを標準デプロイにデプロイできるわけではありません。次の場合は、このデプロイモードを使用することをお勧めします。

モデルは、標準デプロイで使用できる基本モデルまたは微調整された基本モデルです。
クォータのないデプロイを利用できます。
モデルの実行に使用する推論スタックをカスタマイズする必要はありません。

オンラインエンドポイント:

オンラインエンドポイントを使用して、同期的な低待機時間要求でリアルタイム推論のモデルを運用化します。次の場合に使用することをお勧めします。

モデルは基本モデルまたは基本モデルの微調整されたバージョンですが、標準デプロイではサポートされていません。
待機時間が短い要件があります。
モデルは、比較的短時間で要求に応答できます。
モデルの入力は、要求の HTTP ペイロードに収まります。
要求の数の観点からスケールアップする必要があります。

バッチエンドポイント:

バッチエンドポイントを使用して、実行時間の長い非同期推論のモデルまたはパイプラインを運用化します。次の場合に使用することをお勧めします。

実行に時間がかかるコストの高いモデルまたはパイプラインがあります。
機械学習パイプラインを運用化し、コンポーネントを再利用したいと考えています。
複数のファイルに分散されている大量のデータに対して推論を実行する必要があります。
待機時間が短い要件はありません。
モデルの入力は、ストレージアカウントまたはAzure Machine Learningデータ資産に格納されます。
並列化を利用できます。

標準デプロイ、オンライン、バッチエンドポイントの比較

すべての標準デプロイ、オンラインエンドポイント、バッチエンドポイントはエンドポイントの概念に基づいているため、1 つから他方に簡単に移行できます。オンラインエンドポイントとバッチエンドポイントでは、同じエンドポイントに対して複数のデプロイを管理することもできます。

エンドポイント

次の表は、標準デプロイ、オンラインエンドポイント、およびエンドポイントレベルでのバッチエンドポイントで使用できるさまざまな機能の概要を示しています。

機能	標準デプロイ	オンラインエンドポイント	Batch エンドポイント
安定性のある呼び出し URL	はい	はい	はい
複数の展開のサポート	いいえ	はい	はい
デプロイメントのルーティング	なし	トラフィックの負荷分散	既定値に切り替える
安全なロールアウトのためにトラフィックをミラー化する	いいえ	はい	いいえ
Swagger のサポート	はい	はい	いいえ
認証	キー	キーとMicrosoft Entra ID (プレビュー)	Microsoft Entra ID
プライベートネットワークのサポート (レガシ)	いいえ	はい	はい
管理されたネットワークの分離	はい	はい	はい (必要な追加構成を参照)
カスタマーマネージドキー	Na	はい	はい
コスト基準	エンドポイントごと、分あたり¹	なし	なし

¹1 分あたりの標準デプロイには、小さな分数が課金されます。使用量に関連する料金については、「デプロイ」セクションを参照してください。これはトークンごとに課金されます。

展開

次の表は、デプロイレベルで標準デプロイ、オンラインエンドポイント、バッチエンドポイントで使用できるさまざまな機能の概要を示しています。これらの概念は、エンドポイントの下の各デプロイ (オンラインおよびバッチエンドポイントの場合) に適用され、標準デプロイ (デプロイの概念がエンドポイントに組み込まれている) に適用されます。

機能	標準デプロイ	オンラインエンドポイント	Batch エンドポイント
デプロイの種類	モデル	モデル	モデルとパイプラインコンポーネント
MLflow モデルのデプロイ	いいえ。カタログ内の特定のモデルのみ	はい	はい
カスタムモデルのデプロイ	いいえ。カタログ内の特定のモデルのみ	はい(スコア付けスクリプトを使用)	はい(スコア付けスクリプトを使用)
推論サーバー ²	Azure AI モデル推論 API	- Azure Machine Learning推論サーバー -トリトン - カスタム (BYOC を使用)	バッチ推論
使用されたコンピューティングリソース	なし (サーバーレス)	インスタンスまたは詳細なリソース	クラスタインスタンス
コンピューティングの種類	なし (サーバーレス)	マネージドコンピューティングと Kubernetes	マネージドコンピューティングと Kubernetes
優先順位の低いコンピューティング	Na	いいえ	はい
コンピューティングをゼロにスケーリングする	組み込み	いいえ	はい
オートスケーリングコンピューティング³	組み込み	はい (リソースの使用に基づく)	はい(ジョブ数に基づく)
過剰な能力の管理	スロットリング	スロットリング	キューイング
コスト基準⁴	トークンごと	デプロイごと: 実行中のコンピューティングインスタンス	ジョブごと: ジョブで使用されたコンピューティングインスタンス (クラスターのインスタンスの最大数に制限されます)
デプロイのローカルテスト	いいえ	はい	いいえ

²推論サーバー は、要求を受け取り、処理し、応答を作成するサービステクノロジを指します。推論サーバーでは、入力の形式と予想される出力も指定されます。

³自動スケール は、負荷に基づいてデプロイの割り当てられたリソースを動的にスケールアップまたはスケールダウンする機能です。オンラインデプロイとバッチデプロイでは、自動スケーリングにさまざまな戦略が使用されます。オンラインデプロイはリソース使用率 (CPU、メモリ、要求など) に基づいてスケールアップおよびスケールダウンされますが、バッチエンドポイントは作成されたジョブの数に基づいてスケールアップまたはスケールダウンされます。

⁴ オンラインデプロイとバッチデプロイの両方が、消費されたリソースによって課金されます。オンラインデプロイでは、デプロイ時にリソースがプロビジョニングされます。バッチデプロイでは、リソースはデプロイ時ではなく、ジョブの実行時に消費されます。そのため、バッチデプロイ自体に関連するコストは発生しません。同様に、キューに登録されたジョブもリソースを消費しません。

開発者インターフェイス

エンドポイントは、組織がAzure Machine Learningで運用レベルのワークロードを運用化できるように設計されています。エンドポイントは堅牢でスケーラブルなリソースであり、MLOps ワークフローを実装するための最適な機能を提供します。

複数の開発者ツールを使用して、バッチエンドポイントとオンラインエンドポイントを作成および管理できます。

Azure CLI SDK と Python SDK
Azure Resource Manager/REST API
Azure Machine Learning スタジオ Web ポータル
Azure ポータル (IT/管理者)
Azure CLI インターフェイスおよび REST/ARM インターフェイスを使用した CI/CD MLOps パイプラインのサポート

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-30

運用環境での推論のエンドポイント

エンドポイントとデプロイ

直感

エンドポイント: 標準デプロイ、オンライン、バッチ

標準デプロイ、オンライン、バッチ エンドポイントを使用する場合

標準デプロイ、オンライン、バッチ エンドポイントの比較

エンドポイント

展開

開発者インターフェイス

関連コンテンツ

フィードバック

その他のリソース

標準デプロイ、オンライン、バッチエンドポイントを使用する場合

標準デプロイ、オンライン、バッチエンドポイントの比較