Beispiele für serverlose API-Ableitungen für Foundry-Modelle (klassisch)

Gilt nur für:klassisches Foundry Portal. Dieser Artikel ist für das neue Foundry-Portal nicht verfügbar. Erfahren Sie mehr über das neue Portal.

Hinweis

Links in diesem Artikel können Inhalte in der neuen Microsoft Foundry-Dokumentation anstelle der jetzt angezeigten Foundry-Dokumentation (klassisch) öffnen.

Der Foundry-Modellkatalog bietet eine große Auswahl an Microsoft Foundry Models von einer breiten Palette von Anbietern. Sie haben verschiedene Optionen zum Bereitstellen von Modellen aus dem Modellkatalog. In diesem Artikel werden Inferenzbeispiele für serverlose API-Bereitstellungen aufgeführt.

Wichtig

Modelle, die sich in der Vorschau befinden, werden auf ihren Modellkarten im Modellkatalog als Vorschau gekennzeichnet.

Um mit den Modellen Inferenz durchzuführen, benötigen Modelle wie Nixtlas TimeGEN-1 und Cohere Rerank benutzerdefinierte APIs von den Modellanbietern. Andere unterstützen das Ableiten mithilfe der Modell-Inference-API. Weitere Details zu einzelnen Modellen finden Sie, indem Sie ihre Modellkarten im Modellkatalog für das Foundry-Portal überprüfen.

Cohere

Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, darunter Reranking, Chat-Fertigstellungen und Einbettungsmodelle.

Inferenz-Beispiele: Cohere-Befehl und Einbettung

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Cohere-Modellen.

Beschreibung Sprache Beispiel
Webanforderungen Bash Command-RCommand-R+
cohere-embed.ipynb
Azure AI Inference-Paket für C# C# Link
Azure AI Inference-Paket für JavaScript Javascript Link
Azure AI Inference-Paket für Python Python Verbinden
OpenAI SDK (experimentell) Python Verbinden
LangChain Python Verbinden
Cohere SDK Python Befehl
Einbinden
LiteLLM SDK Python Link

Abruf-Augmentierte Generierung (RAG) und Werkzeugnutzungsbeispiele: Cohere-Befehl und Einbettung

Beschreibung Pakete Beispiel
Erstellen Sie einen lokalen Facebook AI-Ähnlichkeitssuche-Vektorindex (FAISS) unter Verwendung von Cohere-Embeddings - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im lokalen FAISS-Vektorindex – Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im KI-Suchvektorindex – Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im KI-Suchvektorindex - Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Befehl R+ Tool/Funktionsaufruf mit LangChain cohere, langchainlangchain_cohere command_tools-langchain.ipynb

Neu ordnen

Um die Ableitung mit Cohere-Neurankmodellen durchzuführen, müssen Sie die benutzerdefinierten Rerank-APIs von Cohere verwenden. Weitere Informationen zum Cohere Rerank-Modell und seinen Funktionen finden Sie unter Cohere rerank.

Preise für Cohere-Neubewertungsmodelle

Abfragen, die nicht mit der Abfrage eines Benutzers verwechselt werden sollen, ist ein Preismesser, der sich auf die Kosten bezieht, die mit den Token verbunden sind, die als Eingabe für die Ableitung eines Cohere Rerank-Modells verwendet werden. Cohere zählt eine einzelne Sucheinheit als Abfrage mit bis zu 100 Dokumenten, die bewertet werden sollen. Dokumente, die unter Berücksichtigung der Länge der Suchabfrage länger als 500 Token (für Cohere-rerank-v3.5) oder länger als 4096 Token (für Cohere-rerank-v3-English und Cohere-rerank-v3-multilingual) sind, werden in mehrere Segmente aufgeteilt, wobei jedes Segment als einzelnes Dokument zählt.

Weitere Informationen finden Sie in der Cohere-Modellsammlung im Foundry-Portal.

Core42

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Jais-Modellen.

Beschreibung Sprache Beispiel
Azure AI Inference-Paket für C# C# Link
Azure AI Inference-Paket für JavaScript Javascript Link
Azure AI Inference-Paket für Python Python Verbinden

DeepSeek

Die DeepSeek-Modellfamilie umfasst DeepSeek-R1, das bei Schlussfolgerungsaufgaben durch einen schrittweisen Schulungsprozess in Bereichen wie Sprache, wissenschaftliches Denken und Programmierungsaufgaben herausragt, DeepSeek-V3-0324, ein Mixture-of-Experts (MoE)-Sprachmodell und mehr.

Die folgende Tabelle enthält Links zu Beispielen für die Verwendung von DeepSeek-Modellen.

Beschreibung Sprache Beispiel
Azure AI Inference-Paket für Python Python Verbinden
Azure AI Inference-Paket für JavaScript Javascript Verbinden
Azure AI Inference-Paket für C# C# Verbinden
Azure AI Inference-Paket für Java Java Link

Meta

Meta Llama Modelle und Tools sind eine Sammlung vorgetrainierter und feingetunter generativer KI-Text- und Bildschlussfolgerungsmodelle. Der Bereich der Metamodelle wird skaliert, um Folgendes einzuschließen:

  • Kleine Sprachmodelle (SLMs) wie 1B und 3B Basismodell und Anleitungsmodell für die Inferenz auf Geräten und an der Edge.
  • Mittelgroße große Sprachmodelle (LLMs) wie 7B-, 8B- und 70B-Basis- und Anweisungsmodelle
  • Leistungsstarke Modelle wie Meta Llama 3.1-405B Instruct für synthetische Datengenerierung und Destillation.
  • Leistungsstarke, nativ multimodale Modelle, Llama 4 Scout und Llama 4 Maverick, nutzen eine Mischung von Experten-Architekturen, um branchenführende Leistung im Text- und Bildverständnis zu bieten.

Die folgende Tabelle enthält Links zu Beispielen für die Verwendung von Meta llama-Modellen.

Beschreibung Sprache Beispiel
CURL-Anforderung Bash Verbinden
Azure AI Inference-Paket für C# C# Link
Azure AI Inference-Paket für JavaScript Javascript Link
Azure AI Inference-Paket für Python Python Verbinden
Python Webanforderungen Python Verbinden
OpenAI SDK (experimentell) Python Verbinden
LangChain Python Verbinden
LiteLLM Python Verbinden

Microsoft

Microsoft Modelle umfassen verschiedene Modellgruppen wie MAI-Modelle, Phi-Modelle, KI-Modelle im Gesundheitswesen und vieles mehr. Um alle verfügbaren Microsoft Modelle anzuzeigen, zeigen Sie die Microsoft Modellsammlung im Foundry-Portal an.

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Microsoft Modellen.

Beschreibung Sprache Beispiel
Azure AI Inference-Paket für C# C# Link
Azure AI Inference-Paket für JavaScript Javascript Link
Azure AI Inference-Paket für Python Python Verbinden
LangChain Python Verbinden
Llama-Index Python Verbinden

Siehe die Microsoft-Modellsammlung im Foundry-Portal.

Mistral AI

Mistral AI bietet zwei Kategorien von Modellen, nämlich:

  • Premiummodelle: Dazu gehören Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) und Ministral 3B Modelle und sind als serverlose APIs mit kostenpflichtiger tokenbasierter Abrechnung verfügbar.
  • Offene Modelle: Dazu gehören Mistral-small-2503, Codestral und Mistral Nemo (die als serverlose APIs mit pay-as-you-go tokenbasierte Abrechnung verfügbar sind) und Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 und Mistral-7B-v01(die zum Herunterladen und Ausführen auf selbst gehosteten verwalteten Endpunkten verfügbar sind).

Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Mistral-Modellen.

Beschreibung Sprache Beispiel
CURL-Anforderung Bash Verbinden
Azure AI Inference-Paket für C# C# Link
Azure AI Inference-Paket für JavaScript Javascript Link
Azure AI Inference-Paket für Python Python Verbinden
Python Webanforderungen Python Verbinden
OpenAI SDK (experimentell) Python Mistral - OpenAI SDK-Beispiel
LangChain Python Mistral - LangChain-Beispiel
Mistral AI Python Mistral - Mistral AI-Beispiel
LiteLLM Python Mistral - LiteLLM-Beispiel

Nixtla

Nixtlas TimeGEN-1 ist ein generatives vortrainiertes Prognose- und Anomalieerkennungsmodell für Zeitreihendaten. TimeGEN-1 kann genaue Prognosen für neue Zeitreihen ohne Training erzeugen, wobei nur historische Werte und exogene Kovariate als Eingaben verwendet werden.

Zum Durchführen der Ableitung erfordert TimeGEN-1, dass Sie die benutzerdefinierte Ableitungs-API von Nixtla verwenden. Weitere Informationen zum TimeGEN-1-Modell und seinen Funktionen finden Sie unter Nixtla.

Schätzen der Anzahl der benötigten Token

Bevor Sie eine TimeGEN-1-Bereitstellung erstellen, empfiehlt es sich, die Anzahl der Token zu schätzen, die Sie nutzen und abrechnen möchten. Ein Token entspricht einem Datenpunkt in Ihrem Eingabe-Dataset oder Ausgabe-Dataset.

Angenommen, Sie haben das folgende Eingabezeitreihen-Dataset:

Unique_id Zeitstempel Zielvariable Exogen variable 1 Exogen variable 2
SEIN 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Um die Anzahl der Token zu ermitteln, multiplizieren Sie die Anzahl der Zeilen (in diesem Beispiel zwei) und die Anzahl der Spalten, die für die Prognose verwendet werden, und zählen nicht die Spalten unique_id und Zeitstempel (in diesem Beispiel drei), um insgesamt sechs Token abzurufen.

Angesichts des folgenden Ausgabedatensatzes:

Unique_id Zeitstempel Prognosezielvariable
BE 2016-10-22 02:00:00 46.57
SEIN 2016-10-22 03:00:00 48.57

Sie können auch die Anzahl der Token ermitteln, indem Sie die Anzahl der nach der Datenvorhersage zurückgegebenen Datenpunkte zählen. In diesem Beispiel ist die Anzahl der Token zwei.

Schätzen der Preise basierend auf Token

Es gibt vier Preismeter, die den Preis bestimmen, den Sie bezahlen. Diese Meter sind wie folgt:

Preismessung Beschreibung
Eingabemarken-für-paygo-Inferenz Kosten, die den Token zugeordnet sind, die als Eingabe für die Ableitung verwendet werden, wenn finetune_steps = 0
paygo-Inferenz-Ausgabe-Token Kosten im Zusammenhang mit den Token, die als Ausgabe verwendet werden, wenn finetune_steps = 0
Pay-as-you-go-feinabgestimmtes-Modell-Inferenz-Eingabe-Tokens Kosten im Zusammenhang mit den Token, die als Eingabe verwendet werden, wenn finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Kosten im Zusammenhang mit den Token, die als Ausgabe für die Inferenz verwendet werden, wenn finetune_steps> 0

Weitere Informationen finden Sie in der Nixtla-Modellsammlung im Foundry-Portal.

Stabilitäts-KI

Stabilitäts-KI-Modelle, die über serverlose API-Bereitstellung bereitgestellt werden, implementieren die Modell-Inference-API auf der Route /image/generations. Beispiele für die Verwendung von Stabilitäts-KI-Modellen finden Sie in den folgenden Beispielen:

Gretel Navigator

Gretel Navigator verwendet eine zusammengesetzte KI-Architektur, die speziell für synthetische Daten entwickelt wurde, indem top Open Source Small Language Models (SLMs) kombiniert werden, die in mehr als 10 Branchendomänen fein abgestimmt sind. Dieses zweckorientierte System erstellt vielfältige, domänenspezifische Datasets in mehreren Hunderten bis Millionen von Beispielen. Das System behält auch komplexe statistische Beziehungen bei und bietet im Vergleich zur manuellen Datenerstellung eine höhere Geschwindigkeit und Genauigkeit.

Beschreibung Sprache Beispiel
Azure AI Inference-Paket für JavaScript Javascript Verbinden
Azure AI Inference-Paket für Python Python Verbinden