Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gilt nur für:klassisches Foundry Portal. Dieser Artikel ist für das neue Foundry-Portal nicht verfügbar.
Erfahren Sie mehr über das neue Portal.
Hinweis
Links in diesem Artikel können Inhalte in der neuen Microsoft Foundry-Dokumentation anstelle der jetzt angezeigten Foundry-Dokumentation (klassisch) öffnen.
Der Foundry-Modellkatalog bietet eine große Auswahl an Microsoft Foundry Models von einer breiten Palette von Anbietern. Sie haben verschiedene Optionen zum Bereitstellen von Modellen aus dem Modellkatalog. In diesem Artikel werden Inferenzbeispiele für serverlose API-Bereitstellungen aufgeführt.
Wichtig
Modelle, die sich in der Vorschau befinden, werden auf ihren Modellkarten im Modellkatalog als Vorschau gekennzeichnet.
Um mit den Modellen Inferenz durchzuführen, benötigen Modelle wie Nixtlas TimeGEN-1 und Cohere Rerank benutzerdefinierte APIs von den Modellanbietern. Andere unterstützen das Ableiten mithilfe der Modell-Inference-API. Weitere Details zu einzelnen Modellen finden Sie, indem Sie ihre Modellkarten im Modellkatalog für das Foundry-Portal überprüfen.
Cohere
Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, darunter Reranking, Chat-Fertigstellungen und Einbettungsmodelle.
Inferenz-Beispiele: Cohere-Befehl und Einbettung
Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Cohere-Modellen.
| Beschreibung | Sprache | Beispiel |
|---|---|---|
| Webanforderungen | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| Azure AI Inference-Paket für C# | C# | Link |
| Azure AI Inference-Paket für JavaScript | Javascript | Link |
| Azure AI Inference-Paket für Python | Python | Verbinden |
| OpenAI SDK (experimentell) | Python | Verbinden |
| LangChain | Python | Verbinden |
| Cohere SDK | Python |
Befehl Einbinden |
| LiteLLM SDK | Python | Link |
Abruf-Augmentierte Generierung (RAG) und Werkzeugnutzungsbeispiele: Cohere-Befehl und Einbettung
| Beschreibung | Pakete | Beispiel |
|---|---|---|
| Erstellen Sie einen lokalen Facebook AI-Ähnlichkeitssuche-Vektorindex (FAISS) unter Verwendung von Cohere-Embeddings - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im lokalen FAISS-Vektorindex – Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im KI-Suchvektorindex – Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Verwenden von Cohere Command R/R+ zum Beantworten von Fragen aus Daten im KI-Suchvektorindex - Cohere SDK |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| Befehl R+ Tool/Funktionsaufruf mit LangChain |
cohere, langchainlangchain_cohere |
command_tools-langchain.ipynb |
Neu ordnen
Um die Ableitung mit Cohere-Neurankmodellen durchzuführen, müssen Sie die benutzerdefinierten Rerank-APIs von Cohere verwenden. Weitere Informationen zum Cohere Rerank-Modell und seinen Funktionen finden Sie unter Cohere rerank.
Preise für Cohere-Neubewertungsmodelle
Abfragen, die nicht mit der Abfrage eines Benutzers verwechselt werden sollen, ist ein Preismesser, der sich auf die Kosten bezieht, die mit den Token verbunden sind, die als Eingabe für die Ableitung eines Cohere Rerank-Modells verwendet werden. Cohere zählt eine einzelne Sucheinheit als Abfrage mit bis zu 100 Dokumenten, die bewertet werden sollen. Dokumente, die unter Berücksichtigung der Länge der Suchabfrage länger als 500 Token (für Cohere-rerank-v3.5) oder länger als 4096 Token (für Cohere-rerank-v3-English und Cohere-rerank-v3-multilingual) sind, werden in mehrere Segmente aufgeteilt, wobei jedes Segment als einzelnes Dokument zählt.
Weitere Informationen finden Sie in der Cohere-Modellsammlung im Foundry-Portal.
Core42
Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Jais-Modellen.
| Beschreibung | Sprache | Beispiel |
|---|---|---|
| Azure AI Inference-Paket für C# | C# | Link |
| Azure AI Inference-Paket für JavaScript | Javascript | Link |
| Azure AI Inference-Paket für Python | Python | Verbinden |
DeepSeek
Die DeepSeek-Modellfamilie umfasst DeepSeek-R1, das bei Schlussfolgerungsaufgaben durch einen schrittweisen Schulungsprozess in Bereichen wie Sprache, wissenschaftliches Denken und Programmierungsaufgaben herausragt, DeepSeek-V3-0324, ein Mixture-of-Experts (MoE)-Sprachmodell und mehr.
Die folgende Tabelle enthält Links zu Beispielen für die Verwendung von DeepSeek-Modellen.
| Beschreibung | Sprache | Beispiel |
|---|---|---|
| Azure AI Inference-Paket für Python | Python | Verbinden |
| Azure AI Inference-Paket für JavaScript | Javascript | Verbinden |
| Azure AI Inference-Paket für C# | C# | Verbinden |
| Azure AI Inference-Paket für Java | Java | Link |
Meta
Meta Llama Modelle und Tools sind eine Sammlung vorgetrainierter und feingetunter generativer KI-Text- und Bildschlussfolgerungsmodelle. Der Bereich der Metamodelle wird skaliert, um Folgendes einzuschließen:
- Kleine Sprachmodelle (SLMs) wie 1B und 3B Basismodell und Anleitungsmodell für die Inferenz auf Geräten und an der Edge.
- Mittelgroße große Sprachmodelle (LLMs) wie 7B-, 8B- und 70B-Basis- und Anweisungsmodelle
- Leistungsstarke Modelle wie Meta Llama 3.1-405B Instruct für synthetische Datengenerierung und Destillation.
- Leistungsstarke, nativ multimodale Modelle, Llama 4 Scout und Llama 4 Maverick, nutzen eine Mischung von Experten-Architekturen, um branchenführende Leistung im Text- und Bildverständnis zu bieten.
Die folgende Tabelle enthält Links zu Beispielen für die Verwendung von Meta llama-Modellen.
| Beschreibung | Sprache | Beispiel |
|---|---|---|
| CURL-Anforderung | Bash | Verbinden |
| Azure AI Inference-Paket für C# | C# | Link |
| Azure AI Inference-Paket für JavaScript | Javascript | Link |
| Azure AI Inference-Paket für Python | Python | Verbinden |
| Python Webanforderungen | Python | Verbinden |
| OpenAI SDK (experimentell) | Python | Verbinden |
| LangChain | Python | Verbinden |
| LiteLLM | Python | Verbinden |
Microsoft
Microsoft Modelle umfassen verschiedene Modellgruppen wie MAI-Modelle, Phi-Modelle, KI-Modelle im Gesundheitswesen und vieles mehr. Um alle verfügbaren Microsoft Modelle anzuzeigen, zeigen Sie die Microsoft Modellsammlung im Foundry-Portal an.
Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Microsoft Modellen.
| Beschreibung | Sprache | Beispiel |
|---|---|---|
| Azure AI Inference-Paket für C# | C# | Link |
| Azure AI Inference-Paket für JavaScript | Javascript | Link |
| Azure AI Inference-Paket für Python | Python | Verbinden |
| LangChain | Python | Verbinden |
| Llama-Index | Python | Verbinden |
Siehe die Microsoft-Modellsammlung im Foundry-Portal.
Mistral AI
Mistral AI bietet zwei Kategorien von Modellen, nämlich:
- Premiummodelle: Dazu gehören Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) und Ministral 3B Modelle und sind als serverlose APIs mit kostenpflichtiger tokenbasierter Abrechnung verfügbar.
- Offene Modelle: Dazu gehören Mistral-small-2503, Codestral und Mistral Nemo (die als serverlose APIs mit pay-as-you-go tokenbasierte Abrechnung verfügbar sind) und Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 und Mistral-7B-v01(die zum Herunterladen und Ausführen auf selbst gehosteten verwalteten Endpunkten verfügbar sind).
Die folgende Tabelle enthält Links zu Beispielen zur Verwendung von Mistral-Modellen.
| Beschreibung | Sprache | Beispiel |
|---|---|---|
| CURL-Anforderung | Bash | Verbinden |
| Azure AI Inference-Paket für C# | C# | Link |
| Azure AI Inference-Paket für JavaScript | Javascript | Link |
| Azure AI Inference-Paket für Python | Python | Verbinden |
| Python Webanforderungen | Python | Verbinden |
| OpenAI SDK (experimentell) | Python | Mistral - OpenAI SDK-Beispiel |
| LangChain | Python | Mistral - LangChain-Beispiel |
| Mistral AI | Python | Mistral - Mistral AI-Beispiel |
| LiteLLM | Python | Mistral - LiteLLM-Beispiel |
Nixtla
Nixtlas TimeGEN-1 ist ein generatives vortrainiertes Prognose- und Anomalieerkennungsmodell für Zeitreihendaten. TimeGEN-1 kann genaue Prognosen für neue Zeitreihen ohne Training erzeugen, wobei nur historische Werte und exogene Kovariate als Eingaben verwendet werden.
Zum Durchführen der Ableitung erfordert TimeGEN-1, dass Sie die benutzerdefinierte Ableitungs-API von Nixtla verwenden. Weitere Informationen zum TimeGEN-1-Modell und seinen Funktionen finden Sie unter Nixtla.
Schätzen der Anzahl der benötigten Token
Bevor Sie eine TimeGEN-1-Bereitstellung erstellen, empfiehlt es sich, die Anzahl der Token zu schätzen, die Sie nutzen und abrechnen möchten. Ein Token entspricht einem Datenpunkt in Ihrem Eingabe-Dataset oder Ausgabe-Dataset.
Angenommen, Sie haben das folgende Eingabezeitreihen-Dataset:
| Unique_id | Zeitstempel | Zielvariable | Exogen variable 1 | Exogen variable 2 |
|---|---|---|---|---|
| SEIN | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
Um die Anzahl der Token zu ermitteln, multiplizieren Sie die Anzahl der Zeilen (in diesem Beispiel zwei) und die Anzahl der Spalten, die für die Prognose verwendet werden, und zählen nicht die Spalten unique_id und Zeitstempel (in diesem Beispiel drei), um insgesamt sechs Token abzurufen.
Angesichts des folgenden Ausgabedatensatzes:
| Unique_id | Zeitstempel | Prognosezielvariable |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| SEIN | 2016-10-22 03:00:00 | 48.57 |
Sie können auch die Anzahl der Token ermitteln, indem Sie die Anzahl der nach der Datenvorhersage zurückgegebenen Datenpunkte zählen. In diesem Beispiel ist die Anzahl der Token zwei.
Schätzen der Preise basierend auf Token
Es gibt vier Preismeter, die den Preis bestimmen, den Sie bezahlen. Diese Meter sind wie folgt:
| Preismessung | Beschreibung |
|---|---|
| Eingabemarken-für-paygo-Inferenz | Kosten, die den Token zugeordnet sind, die als Eingabe für die Ableitung verwendet werden, wenn finetune_steps = 0 |
| paygo-Inferenz-Ausgabe-Token | Kosten im Zusammenhang mit den Token, die als Ausgabe verwendet werden, wenn finetune_steps = 0 |
| Pay-as-you-go-feinabgestimmtes-Modell-Inferenz-Eingabe-Tokens | Kosten im Zusammenhang mit den Token, die als Eingabe verwendet werden, wenn finetune_steps> 0 |
| paygo-finetuned-model-inference-output-tokens | Kosten im Zusammenhang mit den Token, die als Ausgabe für die Inferenz verwendet werden, wenn finetune_steps> 0 |
Weitere Informationen finden Sie in der Nixtla-Modellsammlung im Foundry-Portal.
Stabilitäts-KI
Stabilitäts-KI-Modelle, die über serverlose API-Bereitstellung bereitgestellt werden, implementieren die Modell-Inference-API auf der Route /image/generations.
Beispiele für die Verwendung von Stabilitäts-KI-Modellen finden Sie in den folgenden Beispielen:
- Verwenden Sie das OpenAI SDK mit Stability AI-Modellen für Text-zu-Bild-Anfragen
- Verwenden Sie die Requests-Bibliothek mit Stability AI Modellen für Text-zu-Bild-Anfragen
- Verwenden Sie die Requests-Bibliothek mit Stable Diffusion 3.5 Large für Bild-zu-Bild-Anfragen
- Beispiel einer vollständig codierten Antwort bei der Bildgenerierung
Gretel Navigator
Gretel Navigator verwendet eine zusammengesetzte KI-Architektur, die speziell für synthetische Daten entwickelt wurde, indem top Open Source Small Language Models (SLMs) kombiniert werden, die in mehr als 10 Branchendomänen fein abgestimmt sind. Dieses zweckorientierte System erstellt vielfältige, domänenspezifische Datasets in mehreren Hunderten bis Millionen von Beispielen. Das System behält auch komplexe statistische Beziehungen bei und bietet im Vergleich zur manuellen Datenerstellung eine höhere Geschwindigkeit und Genauigkeit.
| Beschreibung | Sprache | Beispiel |
|---|---|---|
| Azure AI Inference-Paket für JavaScript | Javascript | Verbinden |
| Azure AI Inference-Paket für Python | Python | Verbinden |
Verwandte Inhalte
- Bereitstellen von Modellen als serverlose API-Bereitstellungen
- Erkunden von Foundry-Modellen
- Foundry-Modelle und ihre Fähigkeiten
- Verfügbarkeit von Regionen für Modelle in serverlosen API-Bereitstellungen
Inhaltssicherheit für Modelle, die direkt von Azure