Bereitstellen von Microsoft Foundry Models für die verwaltete Berechnung mit pay-as-you-go Abrechnung (klassisch)

Gilt nur für:klassisches Foundry Portal. Dieser Artikel ist für das neue Foundry-Portal nicht verfügbar. Erfahren Sie mehr über das neue Portal.

Hinweis

Links in diesem Artikel können Inhalte in der neuen Microsoft Foundry-Dokumentation anstelle der jetzt angezeigten Foundry-Dokumentation (klassisch) öffnen.

Microsoft Foundry Models umfassen einen umfassenden Katalog von Modellen, die in zwei Kategorien unterteilt sind: Modelle, die direkt von Azure verkauft werden, und Models von Partnern und Community. Die Modelle von Partnern und Communitys, die Sie auf verwalteter Compute bereitstellen können, sind entweder offene oder geschützte Modelle. In diesem Artikel erfahren Sie, wie Sie gesicherte Modelle von Partnern und der Community, die über den Azure Marketplace angeboten werden, für die Bereitstellung auf verwaltetem Computing mit Pay-as-you-go-Abrechnung verwenden.

Voraussetzungen

Ein Azure-Abonnement mit einer gültigen Zahlungsmethode. Kostenlose oder Testversionen Azure Abonnements funktionieren nicht. Wenn Sie nicht über ein Azure-Abonnement verfügen, erstellen Sie ein kostenpflichtiges Azure-Konto, um zu beginnen.
Wenn Sie über keins verfügen, erstellen Sie ein Hubprojekt für Foundry. Mit einem Hub-Projekt können Sie verwaltete Rechnerressourcen bereitstellen. Ein Foundry-Projekt funktioniert für diesen Zweck nicht.
Azure Marketplace Käufe aktiviert für Ihr Azure-Abonnement.
Azure rollenbasierte Zugriffssteuerungen (Azure RBAC) gewähren Zugriff auf Vorgänge im Foundry-Portal. Um die Schritte in diesem Artikel auszuführen, muss Ihrem Benutzerkonto eine benutzerdefinierte Rolle mit den folgenden Berechtigungen zugewiesen werden. Benutzerkonten, denen die Rolle Owner oder Contributor Rolle für das Azure-Abonnement zugewiesen wurde, können auch Bereitstellungen erstellen. Weitere Informationen zu Berechtigungen finden Sie unter Rollenbasierte Zugriffssteuerung im Foundry-Portal.
Im Azure-Abonnement – um den Arbeitsbereich/das Projekt beim Azure Marketplace-Angebot zu abonnieren:
- Microsoft.MarketplaceOrdering/agreements/offers/plans/read
- Microsoft. MarketplaceOrdering/agreements/offers/plans/sign/action
- Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
- Microsoft. Marketplace/offerTypes/publisher/offers/plans/agreements/read
- Microsoft. SaaS/register/action
In der Ressourcengruppe—zum Erstellen und Verwenden der SaaS-Ressource:
- Microsoft. SaaS/Resources/Read
- Microsoft. SaaS/resources/write
Im Arbeitsbereich Endpunkte bereitstellen:
- Microsoft. MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
- Microsoft. MachineLearningServices/workspaces/onlineEndpoints/*

Abonnementumfang und Maßeinheit für Azure Marketplace Angebot

Foundry bietet eine nahtlose Abonnement- und Transaktionserfahrung für geschützte Modelle, während Sie Ihre dedizierten Modellbereitstellungen im großen Maßstab erstellen und nutzen. Die Bereitstellung von geschützten Modellen auf verwalteten Rechenressourcen umfasst die nutzungsbasierte Abrechnung für den Kunden in zwei Dimensionen.

Die stündliche Abrechnung der Azure Machine Learning-Nutzung für die in der Bereitstellung eingesetzten virtuellen Maschinen.
Aufschlagabrechnung für das Modell, wie vom Modellherausgeber auf dem Azure Marketplace Angebot festgelegt.

Die Abrechnung nach Nutzungsdauer für Azure Compute-Dienste und Modellzuschlag wird pro Minute anteilig basierend auf der Betriebsdauer der verwalteten Onlinebereitstellungen berechnet. Der Aufschlag für ein Modell ist ein PREIS pro GPU-Stunde, der vom Partner (oder Herausgeber des Modells) auf Azure Marketplace festgelegt wird, für alle unterstützten GPUs, die Sie zum Bereitstellen des Modells auf foundry managed compute verwenden können.

Das Abonnement eines Benutzers für Azure Marketplace-Angebote ist der Projektressource innerhalb von Foundry zugewiesen. Wenn ein Abonnement des Azure Marketplace Angebots für ein bestimmtes Modell bereits innerhalb des Projekts vorhanden ist, wird der Benutzer im Bereitstellungs-Assistenten darüber informiert, dass das Abonnement für das Projekt bereits vorhanden ist.

Hinweis

Für NVIDIA Inference Microservices (NIM) sind mehrere Modelle einem einzigen Marketplace-Angebot zugeordnet, sodass Sie das NIM-Angebot nur einmal innerhalb eines Projekts abonnieren müssen, um alle NIMs, die von NVIDIA im Foundry-Modellkatalog angeboten werden, bereitstellen zu können. Wenn Sie NIMs in einem anderen Projekt ohne vorhandenes SaaS-Abonnement bereitstellen möchten, müssen Sie das Angebot erneut abonnieren.

So suchen Sie alle SaaS-Abonnements, die in einem Azure-Abonnement vorhanden sind:

Melden Sie sich beim portal Azure an, und wechseln Sie zu Ihrem Azure-Abonnement.
Wählen Sie Subscriptions und dann Ihr Azure-Abonnement aus, um die Übersichtsseite zu öffnen.
Wählen Sie "Einstellungenressourcen"> aus, um die Liste der Ressourcen anzuzeigen.
Verwenden Sie den Typfilter , um den SaaS-Ressourcentyp auszuwählen.

Der verbrauchsbasierte Aufpreis geht an das zugeordnete SaaS-Abonnement und stellt den Benutzer über Azure Marketplace in Rechnung. Sie können die Rechnung auf der Registerkarte "Übersicht " des jeweiligen SaaS-Abonnements anzeigen.

Tipp

Da Sie den linken Bereich customize the left pane im Microsoft Foundry-Portal erstellen können, werden möglicherweise unterschiedliche Elemente angezeigt als in diesen Schritten. Wenn Sie nicht sehen, wonach Sie suchen, wählen Sie ... Mehr am unteren Rand des linken Bereichs.

Melden Sie sich bei Microsoft Foundry an. Stellen Sie sicher, dass der Umschalter "Neue Gießerei " deaktiviert ist. Diese Schritte beziehen sich auf Foundry (klassisch).
Wenn Sie noch nicht in Ihrem Projekt arbeiten, wählen Sie es aus.
Wählen Sie im linken Bereich den Modellkatalog aus.
Filtern Sie die Modellliste, indem Sie die Sammlung und das Modell Ihrer Wahl auswählen. In diesem Artikel wird Cohere Command A aus der Liste der unterstützten Modelle zur Veranschaulichung verwendet.
Wählen Sie auf der Seite des Modells die Option "Dieses Modell verwenden " aus, um den Bereitstellungs-Assistenten zu öffnen.
Wenn die Kaufoptionen angezeigt werden, wählen Sie "Managed Compute" aus.
Wenn Sie kein dediziertes Kontingent haben, aktivieren Sie das Kontrollkästchen neben der Anweisung: Ich möchte das freigegebene Kontingent verwenden, und ich erkenne an, dass dieser Endpunkt in 168 Stunden gelöscht wird.
Wählen Sie aus einem der unterstützten VM-SKUs für das Modell aus. Sie müssen Azure Machine Learning Computekontingent für diese SKU in Ihrem Azure-Abonnement haben.
Wählen Sie "Anpassen" aus, um Ihre Bereitstellungskonfiguration für Parameter wie die Instanzenanzahl anzugeben. Sie können auch einen vorhandenen Endpunkt für die Bereitstellung auswählen oder eine neue erstellen. Geben Sie in diesem Beispiel eine Instanzanzahl von 1 an, und erstellen Sie einen neuen Endpunkt für die Bereitstellung.
Wählen Sie "Weiter" aus, um zur Preisaufschlüsselungsseite zu wechseln.
Überprüfen Sie die Preisaufschlüsselung für die Bereitstellung, die Nutzungsbedingungen und den Lizenzvertrag im Zusammenhang mit dem Angebot des Modells auf Azure Marketplace. Die Preisaufschlüsselung informiert Sie, was die aggregierten Preise für das bereitgestellte Modell sein würden, wobei der Aufschlag für das Modell eine Funktion der Anzahl der GPUs in der VM-Instanz ist, die Sie in den vorherigen Schritten ausgewählt haben. Zusätzlich zum geltenden Aufschlag für das Modell gelten auch Azure-Rechenkosten, basierend auf Ihrer Bereitstellungskonfiguration. Wenn Sie über vorhandene Reservierungen oder einen Azure-Sparplan verfügen, berücksichtigt die Rechnung die Berechnungsgebühren und spiegelt die ermäßigten VM-Preise wider.
Aktivieren Sie das Kontrollkästchen, um zu bestätigen, dass Sie die Nutzungsbedingungen verstehen und zustimmen. Wählen Sie dann "Bereitstellen" aus. Foundry erstellt Ihr Abonnement für das Marketplace-Angebot und implementiert dann das Modell auf einer verwalteten Rechenleistung. Es dauert etwa 15 bis 20 Minuten, bis die Bereitstellung abgeschlossen ist.

Verwendung von Bereitstellungen

Nachdem Sie Ihre Bereitstellung erfolgreich erstellt haben, führen Sie die folgenden Schritte aus, um sie zu nutzen:

Wählen Sie "Modelle + Endpunkte " unter "Meine Ressourcen " in Ihrem Foundry-Projekt aus.
Wählen Sie Ihre Bereitstellung auf der Registerkarte " Modellbereitstellungen " aus.
Wechseln Sie zur Registerkarte "Test", um eine Beispielinferenz am Endpunkt durchzuführen.
Kehren Sie zur Registerkarte "Details " zurück, um den "Ziel-URI" der Bereitstellung zu kopieren, den Sie zum Ausführen von Rückschlüssen mit Code verwenden können.
Wechseln Sie zur Registerkarte "Verwenden" der Bereitstellung, um Codebeispiele für die Verwendung zu finden.

Netzwerkisolation von Bereitstellungen

Sie können Sammlungen im Modellkatalog innerhalb Ihrer isolierten Netzwerke bereitstellen, indem Sie ein verwaltetes virtuelles Netzwerk des Arbeitsbereichs verwenden. Weitere Informationen zum Konfigurieren Ihrer verwalteten Arbeitsbereichsnetzwerke finden Sie unter Konfigurieren eines verwalteten virtuellen Netzwerks, um das Internet ausgehend zuzulassen.

Einschränkung

Ein Foundry-Projekt mit deaktiviertem Öffentlichem Netzwerkzugriff kann nur eine einzelne aktive Bereitstellung eines der geschützten Modelle aus dem Katalog unterstützen. Versuche, aktivere Bereitstellungen zu erstellen, führen zu Bereitstellungsfehlern.

Unterstützte Modelle

In den folgenden Abschnitten werden die unterstützten Modelle für die verwaltete Computebereitstellung mit pay-as-you-go Abrechnung aufgeführt, gruppiert nach Sammlung.

Boson AI

Modell	Aufgabe
bosonai-higgs-audio-v3-stt	Automatische Spracherkennung
Higgs-Audio-v2.5	Audiogenerierung

Cohere

Modell	Aufgabe
Befehl A	Abschluss des Chats
Einbetten von v4	Einbettungen
Rerank v3.5	Textklassifizierung
Cohere-rerank-v4.0-pro	Textklassifizierung neu anordnen
Cohere-rerank-v4.0-fast	Textklassifizierung neu anordnen

Domyn

Modell	Aufgabe
Domyn-Large	Abschluss des Chats

Inception Labs

Modell	Aufgabe
Quecksilber	Chatabschluss, Textgenerierung, Zusammenfassung

NVIDIA

NVIDIA Inference Microservices (NIM) sind Container, die NVIDIA für optimierte vortrainierte und angepasste KI-Modelle entwickelt, die auf NVIDIA GPUs dienen. Sie können NVIDIA NIMs aus dem Foundry-Modellkatalog mit einem Standardabonnement für das NVIDIA NIM SaaS-Angebot auf dem Azure Marketplace bereitstellen.

Einige besondere Punkte, die Sie zu NIMs beachten müssen, sind:

NIMs umfassen eine Testversion von 90 Tagen. Die Testversion gilt für alle NIMs, die einem bestimmten SaaS-Abonnement zugeordnet sind, und beginnt ab dem Zeitpunkt, zu dem das SaaS-Abonnement erstellt wird.
SaaS-Abonnements im Umfang eines Foundry-Projekts. Da mehrere Modelle einem einzigen Azure Marketplace Angebot zugeordnet sind, müssen Sie nur einmal das NIM-Angebot innerhalb eines Projekts abonnieren, dann können Sie alle NIMs bereitstellen, die von NVIDIA im Foundry-Modellkatalog angeboten werden. Wenn Sie NIMs in einem anderen Projekt ohne vorhandenes SaaS-Abonnement bereitstellen möchten, müssen Sie sich für das Angebot erneut anmelden.

Modell	Aufgabe
NVIDIA-Nemotron-3-Super-NIM-microservice	Chatabschluss, Fragebeantwortung, Zusammenfassung, Textgenerierung, Textzusammenfassung
Openfold3_1_2_0-NIM-microservice	Biomolekulare komplexe Strukturvorhersage
Llama-3.3-Nemotron-Super-49B-v1-NIM-microservice	Abschluss des Chats
Llama-3.1-Nemotron-Nano-8B-v1-NIM-microservice	Abschluss des Chats
Deepseek-R1-Distill-Llama-8B-NIM-microservice	Abschluss des Chats
Llama-3.3-70B-Instruct-NIM-microservice	Abschluss des Chats
Llama-3.1-8B-Instruct-NIM-microservice	Abschluss des Chats
Mistral-7B-Instruct-v0.3-NIM-microservice	Abschluss des Chats
Mixtral-8x7B-Instruct-v0.1-NIM-microservice	Abschluss des Chats
Llama-3.2-NV-embedqa-1b-v2-NIM-microservice	Einbettungen
Llama-3.2-NV-rerankqa-1b-v2-NIM-microservice	Textklassifizierung
Openfold2-NIM-microservice	Proteinbinder
ProteinMPNN-NIM-microservice	Proteinbinder
MSA-search-NIM-microservice	Proteinbinder
Rfdiffusion-NIM-microservice	Proteinbinder
NVIDIA-Nemotron-Nano-9b-v2-NIM-microservice	Abschluss des Chats
Trellis-NIM-microservice	Bild-zu-3D, Text-zu-3D, 3D-Generation
Cosmos-reason1-NIM-microservice	Aufgabenerledigungsüberprüfung, Handlungsunterstützung, Vorhersage der nächsten plausiblen Handlung
Evo2-40b-NIM-microservice	Genomik
Boltz2-NIM-microservice	Strukturvorhersage
Llama-3.3-Nemotron-Super-49B-v1.5-NIM-Mikroservice	Chatabschluss, Zusammenfassung

Verwenden Sie NVIDIA NIM-Bereitstellungen

Nachdem Sie Ihre Bereitstellung erstellt haben, führen Sie die Schritte unter "Bereitstellungen verwenden" aus, um sie zu verwenden.

NVIDIA NIMs on Foundry machen eine openAI-kompatible API verfügbar. Weitere Informationen zur unterstützten Nutzlast finden Sie in der API-Referenz . Der model Parameter für NIMs für Foundry wird auf einen Standardwert innerhalb des Containers festgelegt und ist in der Anforderungsnutzlast für Ihren Onlineendpunkt nicht erforderlich. Die Registerkarte Nutzen der NIM-Bereitstellung auf Foundry enthält Codebeispiele für Inferenzen mit der Ziel-URL Ihrer Bereitstellung.

Sie können NIM-Bereitstellungen auch mithilfe des Foundry Models SDK nutzen, mit Einschränkungen, die Folgendes umfassen:

Keine Unterstützung für das Erstellen und Authentifizieren von Clients mit load_client.
Sie sollten die Clientmethode get_model_info aufrufen, um Modellinformationen abzurufen.

Entwickeln und Ausführen von Agenten mit NIM-Endpunkten

Die folgenden NVIDIA NIMs des Aufgabentyps Chat-Abschlüsse im Modellkatalog können verwendet werden, um mithilfe des Agent-Dienstes Agents mit verschiedenen unterstützten Tools zu erstellen und auszuführen, wobei die folgenden zwei zusätzlichen Anforderungen erfüllt werden müssen:

Erstellen Sie mithilfe des NIM-Endpunkts und des Schlüssels eine Serverless-Verbindung mit dem Projekt. Die Ziel-URL für den NIM-Endpunkt in der Verbindung sollte sein https://<endpoint-name>.region.inference.ml.azure.com/v1/.
Legen Sie den Modellparameter im Anfragetext in der Form https://<endpoint>.region.inference.ml.azure.com/v1/@<parameter value per table below> fest, während Sie Agenten erstellen und ausführen.

NVIDIA NIM	`model` Parameterwert
Llama-3.3-70B-Instruct-NIM-microservice	meta/llama-3.3-70b-instruct
Llama-3.1-8B-Instruct-NIM-microservice	meta/llama-3.1-8b-instruct
Mistral-7B-Instruct-v0.3-NIM-microservice	mistralai/mistral-7b-instruct-v0.3

Sicherheitsüberprüfung

NVIDIA stellt die Sicherheit und Zuverlässigkeit von NVIDIA NIM-Containerimages durch erstklassige Sicherheitsrisikoüberprüfung, strenge Patchverwaltung und transparente Prozesse sicher. Microsoft arbeitet mit NVIDIA zusammen, um die neuesten Patches der NIMs zu erhalten, um sichere, stabile und zuverlässige Software auf Produktionsniveau in Foundry zu liefern.

Sie können im rechten Bereich der Übersichtsseite des Modells auf die zuletzt aktualisierte Zeit für das NIM verweisen. Sie können erneut bereitstellen, um die neueste Version von NIM von NVIDIA on Foundry zu nutzen.

Paige AI

Modell	Aufgabe
Virchow2G	Bildmerkmalsextraktion
Virchow2G-Mini	Bildmerkmalsextraktion

Voyage AI

Modell	Aufgabe
voyage-3.5-embedding-model	Einbettungen

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-01