Beispiele für serverlose API-Ableitungen für Foundry-Modelle (klassisch)

Gilt nur für:klassisches Foundry Portal. Dieser Artikel ist für das neue Foundry-Portal nicht verfügbar. Erfahren Sie mehr über das neue Portal.

Hinweis

Links in diesem Artikel können Inhalte in der neuen Microsoft Foundry-Dokumentation anstelle der jetzt angezeigten Foundry-Dokumentation (klassisch) öffnen.

Der Foundry-Modellkatalog bietet eine große Auswahl an Microsoft Foundry Models von einer breiten Palette von Anbietern. Sie haben verschiedene Optionen zum Bereitstellen von Modellen aus dem Modellkatalog. In diesem Artikel werden Inferenzbeispiele für serverlose API-Bereitstellungen aufgeführt.

Wichtig

Modelle, die sich in der Vorschau befinden, werden auf ihren Modellkarten im Modellkatalog als Vorschau gekennzeichnet.

Um mit den Modellen Inferenz durchzuführen, benötigen Modelle wie Nixtlas TimeGEN-1 und Cohere Rerank benutzerdefinierte APIs von den Modellanbietern. Andere unterstützen das Ableiten mithilfe der Modell-Inference-API. Weitere Details zu einzelnen Modellen finden Sie, indem Sie ihre Modellkarten im Modellkatalog für das Foundry-Portal überprüfen.

Cohere

Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, darunter Reranking, Chat-Fertigstellungen und Einbettungsmodelle.

Inferenz-Beispiele: Cohere-Befehl und Einbettung

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Cohere-Modellen.

Beschreibung	Sprache	Beispiel
Webanforderungen	Bash	Command-R Command-R+ cohere-embed.ipynb
Azure AI Inference-Paket für C#	C#	Link
Azure AI Inference-Paket für JavaScript	Javascript	Link
Azure AI Inference-Paket für Python	Python	Verbinden
OpenAI SDK (experimentell)	Python	Verbinden
LangChain	Python	Verbinden
Cohere SDK	Python	Befehl Einbinden
LiteLLM SDK	Python	Link

Abruf-Augmentierte Generierung (RAG) und Werkzeugnutzungsbeispiele: Cohere-Befehl und Einbettung

Beschreibung	Pakete	Beispiel
Erstellen Sie einen lokalen Facebook AI-Ähnlichkeitssuche-Vektorindex (FAISS) unter Verwendung von Cohere-Embeddings - Langchain	`langchain`, `langchain_cohere`	cohere_faiss_langchain_embed.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im lokalen FAISS-Vektorindex – Langchain	`langchain`, `langchain_cohere`	command_faiss_langchain.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im KI-Suchvektorindex – Langchain	`langchain`, `langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im KI-Suchvektorindex - Cohere SDK	`cohere`, `azure_search_documents`	cohere-aisearch-rag.ipynb
Befehl R+ Tool/Funktionsaufruf mit LangChain	`cohere`, `langchainlangchain_cohere`	command_tools-langchain.ipynb

Neu ordnen

Um die Ableitung mit Cohere-Neurankmodellen durchzuführen, müssen Sie die benutzerdefinierten Rerank-APIs von Cohere verwenden. Weitere Informationen zum Cohere Rerank-Modell und seinen Funktionen finden Sie unter Cohere rerank.

Preise für Cohere-Neubewertungsmodelle

Abfragen, die nicht mit der Abfrage eines Benutzers verwechselt werden sollen, ist ein Preismesser, der sich auf die Kosten bezieht, die mit den Token verbunden sind, die als Eingabe für die Ableitung eines Cohere Rerank-Modells verwendet werden. Cohere zählt eine einzelne Sucheinheit als Abfrage mit bis zu 100 Dokumenten, die bewertet werden sollen. Dokumente, die unter Berücksichtigung der Länge der Suchabfrage länger als 500 Token (für Cohere-rerank-v3.5) oder länger als 4096 Token (für Cohere-rerank-v3-English und Cohere-rerank-v3-multilingual) sind, werden in mehrere Segmente aufgeteilt, wobei jedes Segment als einzelnes Dokument zählt.

Weitere Informationen finden Sie in der Cohere-Modellsammlung im Foundry-Portal.

Core42

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Jais-Modellen.

Beschreibung	Sprache	Beispiel
Azure AI Inference-Paket für C#	C#	Link
Azure AI Inference-Paket für JavaScript	Javascript	Link
Azure AI Inference-Paket für Python	Python	Verbinden

DeepSeek

Die DeepSeek-Modellfamilie umfasst DeepSeek-R1, das bei Schlussfolgerungsaufgaben durch einen schrittweisen Schulungsprozess in Bereichen wie Sprache, wissenschaftliches Denken und Programmierungsaufgaben herausragt, DeepSeek-V3-0324, ein Mixture-of-Experts (MoE)-Sprachmodell und mehr.

Die folgende Tabelle enthält Links zu Beispielen für die Verwendung von DeepSeek-Modellen.

Beschreibung	Sprache	Beispiel
Azure AI Inference-Paket für Python	Python	Verbinden
Azure AI Inference-Paket für JavaScript	Javascript	Verbinden
Azure AI Inference-Paket für C#	C#	Verbinden
Azure AI Inference-Paket für Java	Java	Link

Microsoft

Microsoft Modelle umfassen verschiedene Modellgruppen wie MAI-Modelle, Phi-Modelle, KI-Modelle im Gesundheitswesen und vieles mehr. Um alle verfügbaren Microsoft Modelle anzuzeigen, zeigen Sie die Microsoft Modellsammlung im Foundry-Portal an.

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Microsoft Modellen.

Beschreibung	Sprache	Beispiel
Azure AI Inference-Paket für C#	C#	Link
Azure AI Inference-Paket für JavaScript	Javascript	Link
Azure AI Inference-Paket für Python	Python	Verbinden
LangChain	Python	Verbinden
Llama-Index	Python	Verbinden

Siehe die Microsoft-Modellsammlung im Foundry-Portal.

Mistral AI

Mistral AI bietet zwei Kategorien von Modellen, nämlich:

Premiummodelle: Dazu gehören Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) und Ministral 3B Modelle und sind als serverlose APIs mit kostenpflichtiger tokenbasierter Abrechnung verfügbar.
Offene Modelle: Dazu gehören Mistral-small-2503, Codestral und Mistral Nemo (die als serverlose APIs mit pay-as-you-go tokenbasierte Abrechnung verfügbar sind) und Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 und Mistral-7B-v01(die zum Herunterladen und Ausführen auf selbst gehosteten verwalteten Endpunkten verfügbar sind).

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Mistral-Modellen.

Beschreibung	Sprache	Beispiel
CURL-Anforderung	Bash	Verbinden
Azure AI Inference-Paket für C#	C#	Link
Azure AI Inference-Paket für JavaScript	Javascript	Link
Azure AI Inference-Paket für Python	Python	Verbinden
Python Webanforderungen	Python	Verbinden
OpenAI SDK (experimentell)	Python	Mistral - OpenAI SDK-Beispiel
LangChain	Python	Mistral - LangChain-Beispiel
Mistral AI	Python	Mistral - Mistral AI-Beispiel
LiteLLM	Python	Mistral - LiteLLM-Beispiel

Nixtla

Nixtlas TimeGEN-1 ist ein generatives vortrainiertes Prognose- und Anomalieerkennungsmodell für Zeitreihendaten. TimeGEN-1 kann genaue Prognosen für neue Zeitreihen ohne Training erzeugen, wobei nur historische Werte und exogene Kovariate als Eingaben verwendet werden.

Zum Durchführen der Ableitung erfordert TimeGEN-1, dass Sie die benutzerdefinierte Ableitungs-API von Nixtla verwenden. Weitere Informationen zum TimeGEN-1-Modell und seinen Funktionen finden Sie unter Nixtla.

Schätzen der Anzahl der benötigten Token

Bevor Sie eine TimeGEN-1-Bereitstellung erstellen, empfiehlt es sich, die Anzahl der Token zu schätzen, die Sie nutzen und abrechnen möchten. Ein Token entspricht einem Datenpunkt in Ihrem Eingabe-Dataset oder Ausgabe-Dataset.

Angenommen, Sie haben das folgende Eingabezeitreihen-Dataset:

Unique_id	Zeitstempel	Zielvariable	Exogen variable 1	Exogen variable 2
SEIN	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

Um die Anzahl der Token zu ermitteln, multiplizieren Sie die Anzahl der Zeilen (in diesem Beispiel zwei) und die Anzahl der Spalten, die für die Prognose verwendet werden, und zählen nicht die Spalten unique_id und Zeitstempel (in diesem Beispiel drei), um insgesamt sechs Token abzurufen.

Angesichts des folgenden Ausgabedatensatzes:

Unique_id	Zeitstempel	Prognosezielvariable
BE	2016-10-22 02:00:00	46.57
SEIN	2016-10-22 03:00:00	48.57

Sie können auch die Anzahl der Token ermitteln, indem Sie die Anzahl der nach der Datenvorhersage zurückgegebenen Datenpunkte zählen. In diesem Beispiel ist die Anzahl der Token zwei.

Schätzen der Preise basierend auf Token

Es gibt vier Preismeter, die den Preis bestimmen, den Sie bezahlen. Diese Meter sind wie folgt:

Preismessung	Beschreibung
Eingabemarken-für-paygo-Inferenz	Kosten, die den Token zugeordnet sind, die als Eingabe für die Ableitung verwendet werden, wenn finetune_steps = 0
paygo-Inferenz-Ausgabe-Token	Kosten im Zusammenhang mit den Token, die als Ausgabe verwendet werden, wenn finetune_steps = 0
Pay-as-you-go-feinabgestimmtes-Modell-Inferenz-Eingabe-Tokens	Kosten im Zusammenhang mit den Token, die als Eingabe verwendet werden, wenn finetune_steps> 0
paygo-finetuned-model-inference-output-tokens	Kosten im Zusammenhang mit den Token, die als Ausgabe für die Inferenz verwendet werden, wenn finetune_steps> 0

Weitere Informationen finden Sie in der Nixtla-Modellsammlung im Foundry-Portal.

Stabilitäts-KI

Stabilitäts-KI-Modelle, die über serverlose API-Bereitstellung bereitgestellt werden, implementieren die Modell-Inference-API auf der Route /image/generations. Beispiele für die Verwendung von Stabilitäts-KI-Modellen finden Sie in den folgenden Beispielen:

Gretel Navigator

Gretel Navigator verwendet eine zusammengesetzte KI-Architektur, die speziell für synthetische Daten entwickelt wurde, indem top Open Source Small Language Models (SLMs) kombiniert werden, die in mehr als 10 Branchendomänen fein abgestimmt sind. Dieses zweckorientierte System erstellt vielfältige, domänenspezifische Datasets in mehreren Hunderten bis Millionen von Beispielen. Das System behält auch komplexe statistische Beziehungen bei und bietet im Vergleich zur manuellen Datenerstellung eine höhere Geschwindigkeit und Genauigkeit.

Beschreibung	Sprache	Beispiel
Azure AI Inference-Paket für JavaScript	Javascript	Verbinden
Azure AI Inference-Paket für Python	Python	Verbinden

Bereitstellen von Modellen als serverlose API-Bereitstellungen
Erkunden von Foundry-Modellen
Foundry-Modelle und ihre Fähigkeiten
Verfügbarkeit von Regionen für Modelle in serverlosen API-Bereitstellungen
Inhaltssicherheit für Modelle, die direkt von Azure

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-01