Bereitstellen von Microsoft Foundry Models für die verwaltete Berechnung mit pay-as-you-go Abrechnung (klassisch)

Gilt nur für:klassisches Foundry Portal. Dieser Artikel ist für das neue Foundry-Portal nicht verfügbar. Erfahren Sie mehr über das neue Portal.

Hinweis

Links in diesem Artikel können Inhalte in der neuen Microsoft Foundry-Dokumentation anstelle der jetzt angezeigten Foundry-Dokumentation (klassisch) öffnen.

Microsoft Foundry Models umfassen einen umfassenden Katalog von Modellen, die in zwei Kategorien unterteilt sind: Modelle, die direkt von Azure verkauft werden, und Models von Partnern und Community. Die Modelle von Partnern und Communitys, die Sie auf verwalteter Compute bereitstellen können, sind entweder offene oder geschützte Modelle. In diesem Artikel erfahren Sie, wie Sie gesicherte Modelle von Partnern und der Community, die über den Azure Marketplace angeboten werden, für die Bereitstellung auf verwaltetem Computing mit Pay-as-you-go-Abrechnung verwenden.

Voraussetzungen

  • Ein Azure-Abonnement mit einer gültigen Zahlungsmethode. Kostenlose oder Testversionen Azure Abonnements funktionieren nicht. Wenn Sie nicht über ein Azure-Abonnement verfügen, erstellen Sie ein kostenpflichtiges Azure-Konto, um zu beginnen.

  • Wenn Sie über keins verfügen, erstellen Sie ein Hubprojekt für Foundry. Mit einem Hub-Projekt können Sie verwaltete Rechnerressourcen bereitstellen. Ein Foundry-Projekt funktioniert für diesen Zweck nicht.

  • Azure Marketplace Käufe aktiviert für Ihr Azure-Abonnement.

  • Azure rollenbasierte Zugriffssteuerungen (Azure RBAC) gewähren Zugriff auf Vorgänge im Foundry-Portal. Um die Schritte in diesem Artikel auszuführen, muss Ihrem Benutzerkonto eine benutzerdefinierte Rolle mit den folgenden Berechtigungen zugewiesen werden. Benutzerkonten, denen die Rolle Owner oder Contributor Rolle für das Azure-Abonnement zugewiesen wurde, können auch Bereitstellungen erstellen. Weitere Informationen zu Berechtigungen finden Sie unter Rollenbasierte Zugriffssteuerung im Foundry-Portal.

  • Im Azure-Abonnement – um den Arbeitsbereich/das Projekt beim Azure Marketplace-Angebot zu abonnieren:

    • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
    • Microsoft. MarketplaceOrdering/agreements/offers/plans/sign/action
    • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft. Marketplace/offerTypes/publisher/offers/plans/agreements/read
    • Microsoft. SaaS/register/action
  • In der Ressourcengruppe—zum Erstellen und Verwenden der SaaS-Ressource:

    • Microsoft. SaaS/Resources/Read
    • Microsoft. SaaS/resources/write
  • Im Arbeitsbereich Endpunkte bereitstellen:

    • Microsoft. MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
    • Microsoft. MachineLearningServices/workspaces/onlineEndpoints/*

Abonnementumfang und Maßeinheit für Azure Marketplace Angebot

Foundry bietet eine nahtlose Abonnement- und Transaktionserfahrung für geschützte Modelle, während Sie Ihre dedizierten Modellbereitstellungen im großen Maßstab erstellen und nutzen. Die Bereitstellung von geschützten Modellen auf verwalteten Rechenressourcen umfasst die nutzungsbasierte Abrechnung für den Kunden in zwei Dimensionen.

  • Die stündliche Abrechnung der Azure Machine Learning-Nutzung für die in der Bereitstellung eingesetzten virtuellen Maschinen.
  • Aufschlagabrechnung für das Modell, wie vom Modellherausgeber auf dem Azure Marketplace Angebot festgelegt.

Die Abrechnung nach Nutzungsdauer für Azure Compute-Dienste und Modellzuschlag wird pro Minute anteilig basierend auf der Betriebsdauer der verwalteten Onlinebereitstellungen berechnet. Der Aufschlag für ein Modell ist ein PREIS pro GPU-Stunde, der vom Partner (oder Herausgeber des Modells) auf Azure Marketplace festgelegt wird, für alle unterstützten GPUs, die Sie zum Bereitstellen des Modells auf foundry managed compute verwenden können.

Das Abonnement eines Benutzers für Azure Marketplace-Angebote ist der Projektressource innerhalb von Foundry zugewiesen. Wenn ein Abonnement des Azure Marketplace Angebots für ein bestimmtes Modell bereits innerhalb des Projekts vorhanden ist, wird der Benutzer im Bereitstellungs-Assistenten darüber informiert, dass das Abonnement für das Projekt bereits vorhanden ist.

Hinweis

Für NVIDIA Inference Microservices (NIM) sind mehrere Modelle einem einzigen Marketplace-Angebot zugeordnet, sodass Sie das NIM-Angebot nur einmal innerhalb eines Projekts abonnieren müssen, um alle NIMs, die von NVIDIA im Foundry-Modellkatalog angeboten werden, bereitstellen zu können. Wenn Sie NIMs in einem anderen Projekt ohne vorhandenes SaaS-Abonnement bereitstellen möchten, müssen Sie das Angebot erneut abonnieren.

So suchen Sie alle SaaS-Abonnements, die in einem Azure-Abonnement vorhanden sind:

  1. Melden Sie sich beim portal Azure an, und wechseln Sie zu Ihrem Azure-Abonnement.

  2. Wählen Sie Subscriptions und dann Ihr Azure-Abonnement aus, um die Übersichtsseite zu öffnen.

  3. Wählen Sie "Einstellungenressourcen"> aus, um die Liste der Ressourcen anzuzeigen.

  4. Verwenden Sie den Typfilter , um den SaaS-Ressourcentyp auszuwählen.

Der verbrauchsbasierte Aufpreis geht an das zugeordnete SaaS-Abonnement und stellt den Benutzer über Azure Marketplace in Rechnung. Sie können die Rechnung auf der Registerkarte "Übersicht " des jeweiligen SaaS-Abonnements anzeigen.

Abonnieren und Bereitstellen auf verwalteten Rechenressourcen

Tipp

Da Sie den linken Bereich customize the left pane im Microsoft Foundry-Portal erstellen können, werden möglicherweise unterschiedliche Elemente angezeigt als in diesen Schritten. Wenn Sie nicht sehen, wonach Sie suchen, wählen Sie ... Mehr am unteren Rand des linken Bereichs.

  1. Melden Sie sich bei Microsoft Foundry an. Stellen Sie sicher, dass der Umschalter "Neue Gießerei " deaktiviert ist. Diese Schritte beziehen sich auf Foundry (klassisch).

  2. Wenn Sie noch nicht in Ihrem Projekt arbeiten, wählen Sie es aus.

  3. Wählen Sie im linken Bereich den Modellkatalog aus.

  4. Filtern Sie die Modellliste, indem Sie die Sammlung und das Modell Ihrer Wahl auswählen. In diesem Artikel wird Cohere Command A aus der Liste der unterstützten Modelle zur Veranschaulichung verwendet.

  5. Wählen Sie auf der Seite des Modells die Option "Dieses Modell verwenden " aus, um den Bereitstellungs-Assistenten zu öffnen.

  6. Wenn die Kaufoptionen angezeigt werden, wählen Sie "Managed Compute" aus.

  7. Wenn Sie kein dediziertes Kontingent haben, aktivieren Sie das Kontrollkästchen neben der Anweisung: Ich möchte das freigegebene Kontingent verwenden, und ich erkenne an, dass dieser Endpunkt in 168 Stunden gelöscht wird.

  8. Wählen Sie aus einem der unterstützten VM-SKUs für das Modell aus. Sie müssen Azure Machine Learning Computekontingent für diese SKU in Ihrem Azure-Abonnement haben.

  9. Wählen Sie "Anpassen" aus, um Ihre Bereitstellungskonfiguration für Parameter wie die Instanzenanzahl anzugeben. Sie können auch einen vorhandenen Endpunkt für die Bereitstellung auswählen oder eine neue erstellen. Geben Sie in diesem Beispiel eine Instanzanzahl von 1 an, und erstellen Sie einen neuen Endpunkt für die Bereitstellung.

    Screenshot des Bereitstellungskonfigurationsbildschirms für ein geschütztes Modell in Foundry.

  10. Wählen Sie "Weiter" aus, um zur Preisaufschlüsselungsseite zu wechseln.

  11. Überprüfen Sie die Preisaufschlüsselung für die Bereitstellung, die Nutzungsbedingungen und den Lizenzvertrag im Zusammenhang mit dem Angebot des Modells auf Azure Marketplace. Die Preisaufschlüsselung informiert Sie, was die aggregierten Preise für das bereitgestellte Modell sein würden, wobei der Aufschlag für das Modell eine Funktion der Anzahl der GPUs in der VM-Instanz ist, die Sie in den vorherigen Schritten ausgewählt haben. Zusätzlich zum geltenden Aufschlag für das Modell gelten auch Azure-Rechenkosten, basierend auf Ihrer Bereitstellungskonfiguration. Wenn Sie über vorhandene Reservierungen oder einen Azure-Sparplan verfügen, berücksichtigt die Rechnung die Berechnungsgebühren und spiegelt die ermäßigten VM-Preise wider.

    Screenshot der Seite

  12. Aktivieren Sie das Kontrollkästchen, um zu bestätigen, dass Sie die Nutzungsbedingungen verstehen und zustimmen. Wählen Sie dann "Bereitstellen" aus. Foundry erstellt Ihr Abonnement für das Marketplace-Angebot und implementiert dann das Modell auf einer verwalteten Rechenleistung. Es dauert etwa 15 bis 20 Minuten, bis die Bereitstellung abgeschlossen ist.

Verwendung von Bereitstellungen

Nachdem Sie Ihre Bereitstellung erfolgreich erstellt haben, führen Sie die folgenden Schritte aus, um sie zu nutzen:

  1. Wählen Sie "Modelle + Endpunkte " unter "Meine Ressourcen " in Ihrem Foundry-Projekt aus.
  2. Wählen Sie Ihre Bereitstellung auf der Registerkarte " Modellbereitstellungen " aus.
  3. Wechseln Sie zur Registerkarte "Test", um eine Beispielinferenz am Endpunkt durchzuführen.
  4. Kehren Sie zur Registerkarte "Details " zurück, um den "Ziel-URI" der Bereitstellung zu kopieren, den Sie zum Ausführen von Rückschlüssen mit Code verwenden können.
  5. Wechseln Sie zur Registerkarte "Verwenden" der Bereitstellung, um Codebeispiele für die Verwendung zu finden.

Netzwerkisolation von Bereitstellungen

Sie können Sammlungen im Modellkatalog innerhalb Ihrer isolierten Netzwerke bereitstellen, indem Sie ein verwaltetes virtuelles Netzwerk des Arbeitsbereichs verwenden. Weitere Informationen zum Konfigurieren Ihrer verwalteten Arbeitsbereichsnetzwerke finden Sie unter Konfigurieren eines verwalteten virtuellen Netzwerks, um das Internet ausgehend zuzulassen.

Einschränkung

Ein Foundry-Projekt mit deaktiviertem Öffentlichem Netzwerkzugriff kann nur eine einzelne aktive Bereitstellung eines der geschützten Modelle aus dem Katalog unterstützen. Versuche, aktivere Bereitstellungen zu erstellen, führen zu Bereitstellungsfehlern.

Unterstützte Modelle

In den folgenden Abschnitten werden die unterstützten Modelle für die verwaltete Computebereitstellung mit pay-as-you-go Abrechnung aufgeführt, gruppiert nach Sammlung.

Boson AI

Modell Aufgabe
bosonai-higgs-audio-v3-stt Automatische Spracherkennung
Higgs-Audio-v2.5 Audiogenerierung

Cohere

Modell Aufgabe
Befehl A Abschluss des Chats
Einbetten von v4 Einbettungen
Rerank v3.5 Textklassifizierung
Cohere-rerank-v4.0-pro Textklassifizierung neu anordnen
Cohere-rerank-v4.0-fast Textklassifizierung neu anordnen

Domyn

Modell Aufgabe
Domyn-Large Abschluss des Chats

Inception Labs

Modell Aufgabe
Quecksilber Chatabschluss, Textgenerierung, Zusammenfassung

NVIDIA

NVIDIA Inference Microservices (NIM) sind Container, die NVIDIA für optimierte vortrainierte und angepasste KI-Modelle entwickelt, die auf NVIDIA GPUs dienen. Sie können NVIDIA NIMs aus dem Foundry-Modellkatalog mit einem Standardabonnement für das NVIDIA NIM SaaS-Angebot auf dem Azure Marketplace bereitstellen.

Einige besondere Punkte, die Sie zu NIMs beachten müssen, sind:

  • NIMs umfassen eine Testversion von 90 Tagen. Die Testversion gilt für alle NIMs, die einem bestimmten SaaS-Abonnement zugeordnet sind, und beginnt ab dem Zeitpunkt, zu dem das SaaS-Abonnement erstellt wird.

  • SaaS-Abonnements im Umfang eines Foundry-Projekts. Da mehrere Modelle einem einzigen Azure Marketplace Angebot zugeordnet sind, müssen Sie nur einmal das NIM-Angebot innerhalb eines Projekts abonnieren, dann können Sie alle NIMs bereitstellen, die von NVIDIA im Foundry-Modellkatalog angeboten werden. Wenn Sie NIMs in einem anderen Projekt ohne vorhandenes SaaS-Abonnement bereitstellen möchten, müssen Sie sich für das Angebot erneut anmelden.

Modell Aufgabe
NVIDIA-Nemotron-3-Super-NIM-microservice Chatabschluss, Fragebeantwortung, Zusammenfassung, Textgenerierung, Textzusammenfassung
Openfold3_1_2_0-NIM-microservice Biomolekulare komplexe Strukturvorhersage
Llama-3.3-Nemotron-Super-49B-v1-NIM-microservice Abschluss des Chats
Llama-3.1-Nemotron-Nano-8B-v1-NIM-microservice Abschluss des Chats
Deepseek-R1-Distill-Llama-8B-NIM-microservice Abschluss des Chats
Llama-3.3-70B-Instruct-NIM-microservice Abschluss des Chats
Llama-3.1-8B-Instruct-NIM-microservice Abschluss des Chats
Mistral-7B-Instruct-v0.3-NIM-microservice Abschluss des Chats
Mixtral-8x7B-Instruct-v0.1-NIM-microservice Abschluss des Chats
Llama-3.2-NV-embedqa-1b-v2-NIM-microservice Einbettungen
Llama-3.2-NV-rerankqa-1b-v2-NIM-microservice Textklassifizierung
Openfold2-NIM-microservice Proteinbinder
ProteinMPNN-NIM-microservice Proteinbinder
MSA-search-NIM-microservice Proteinbinder
Rfdiffusion-NIM-microservice Proteinbinder
NVIDIA-Nemotron-Nano-9b-v2-NIM-microservice Abschluss des Chats
Trellis-NIM-microservice Bild-zu-3D, Text-zu-3D, 3D-Generation
Cosmos-reason1-NIM-microservice Aufgabenerledigungsüberprüfung, Handlungsunterstützung, Vorhersage der nächsten plausiblen Handlung
Evo2-40b-NIM-microservice Genomik
Boltz2-NIM-microservice Strukturvorhersage
Llama-3.3-Nemotron-Super-49B-v1.5-NIM-Mikroservice Chatabschluss, Zusammenfassung

Verwenden Sie NVIDIA NIM-Bereitstellungen

Nachdem Sie Ihre Bereitstellung erstellt haben, führen Sie die Schritte unter "Bereitstellungen verwenden" aus, um sie zu verwenden.

NVIDIA NIMs on Foundry machen eine openAI-kompatible API verfügbar. Weitere Informationen zur unterstützten Nutzlast finden Sie in der API-Referenz . Der model Parameter für NIMs für Foundry wird auf einen Standardwert innerhalb des Containers festgelegt und ist in der Anforderungsnutzlast für Ihren Onlineendpunkt nicht erforderlich. Die Registerkarte Nutzen der NIM-Bereitstellung auf Foundry enthält Codebeispiele für Inferenzen mit der Ziel-URL Ihrer Bereitstellung.

Sie können NIM-Bereitstellungen auch mithilfe des Foundry Models SDK nutzen, mit Einschränkungen, die Folgendes umfassen:

Entwickeln und Ausführen von Agenten mit NIM-Endpunkten

Die folgenden NVIDIA NIMs des Aufgabentyps Chat-Abschlüsse im Modellkatalog können verwendet werden, um mithilfe des Agent-Dienstes Agents mit verschiedenen unterstützten Tools zu erstellen und auszuführen, wobei die folgenden zwei zusätzlichen Anforderungen erfüllt werden müssen:

  1. Erstellen Sie mithilfe des NIM-Endpunkts und des Schlüssels eine Serverless-Verbindung mit dem Projekt. Die Ziel-URL für den NIM-Endpunkt in der Verbindung sollte sein https://<endpoint-name>.region.inference.ml.azure.com/v1/.
  2. Legen Sie den Modellparameter im Anfragetext in der Form https://<endpoint>.region.inference.ml.azure.com/v1/@<parameter value per table below> fest, während Sie Agenten erstellen und ausführen.
NVIDIA NIM model Parameterwert
Llama-3.3-70B-Instruct-NIM-microservice meta/llama-3.3-70b-instruct
Llama-3.1-8B-Instruct-NIM-microservice meta/llama-3.1-8b-instruct
Mistral-7B-Instruct-v0.3-NIM-microservice mistralai/mistral-7b-instruct-v0.3

Sicherheitsüberprüfung

NVIDIA stellt die Sicherheit und Zuverlässigkeit von NVIDIA NIM-Containerimages durch erstklassige Sicherheitsrisikoüberprüfung, strenge Patchverwaltung und transparente Prozesse sicher. Microsoft arbeitet mit NVIDIA zusammen, um die neuesten Patches der NIMs zu erhalten, um sichere, stabile und zuverlässige Software auf Produktionsniveau in Foundry zu liefern.

Sie können im rechten Bereich der Übersichtsseite des Modells auf die zuletzt aktualisierte Zeit für das NIM verweisen. Sie können erneut bereitstellen, um die neueste Version von NIM von NVIDIA on Foundry zu nutzen.

Paige AI

Modell Aufgabe
Virchow2G Bildmerkmalsextraktion
Virchow2G-Mini Bildmerkmalsextraktion

Voyage AI

Modell Aufgabe
voyage-3.5-embedding-model Einbettungen