Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Alleen van toepassing op:Foundry (klassiek) portal. Dit artikel is niet beschikbaar voor de nieuwe Foundry-portal.
Meer informatie over de nieuwe portal.
Opmerking
Koppelingen in dit artikel kunnen inhoud openen in de nieuwe Microsoft Foundry-documentatie in plaats van de Foundry-documentatie (klassiek) die u nu bekijkt.
De Foundry-modelcatalogus biedt een grote selectie van Microsoft Foundry-modellen van een breed scala aan providers. U hebt verschillende opties voor het implementeren van modellen uit de modelcatalogus. In dit artikel vindt u voorbeelden van deductie voor serverloze API-implementaties.
Belangrijk
Modellen die in preview zijn, worden gemarkeerd als voorbeeld op hun modelkaarten in de modelcatalogus.
Om inferenties uit te voeren met de modellen, vereisen sommige modellen, zoals Nixtla's TimeGEN-1 en Cohere rerank, dat u aangepaste API's van de modelproviders gebruikt. Anderen ondersteunen deductie met behulp van de ModelDeductie-API. U vindt meer informatie over afzonderlijke modellen door hun modelkaarten te bekijken in de modelcatalogus voor Foundry Portal.
Cohere
De cohere-serie modellen bevat verschillende modellen die zijn geoptimaliseerd voor verschillende gebruiksvoorbeelden, waaronder herrankering, chatvoltooiingen en insluitingsmodellen.
Voorbeelden van inferentie: commando Cohere en embedden
De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Cohere-modellen.
| Beschrijving | Taal | Monster |
|---|---|---|
| Webaanvragen | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| Azure AI-inferentiepakket voor C# | C# | Link |
| Azure AI-inferencepakket voor JavaScript | Javascript | Link |
| Azure AI-inferentiepakket voor Python | Python | Link |
| OpenAI SDK (experimenteel) | Python | Link |
| LangChain | Python | Link |
| Cohere SDK | Python |
Opdracht Insluiten |
| LiteLLM SDK | Python | Link |
Voorbeelden van Retrieval Augmented Generation (RAG) en toolgebruik: Cohere commando en embed.
| Beschrijving | Pakketten | Monster |
|---|---|---|
| Een lokale FAISS-vectorindex (Facebook AI similarity search) maken met cohere embeddings - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Cohere Command R/R+ gebruiken om vragen te beantwoorden van gegevens in de lokale FAISS-vectorindex - Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Cohere Command R/R+ gebruiken om vragen te beantwoorden van gegevens in de AI-zoekvectorindex - Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Cohere Command R/R+ gebruiken om vragen te beantwoorden van gegevens in de AI-zoekvectorindex - Cohere SDK |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| Opdracht R+ hulpprogramma/functie aanroepen, met behulp van LangChain |
cohere, langchain, langchain_cohere |
command_tools-langchain.ipynb |
Cohere rerankeren
Als u deductie wilt uitvoeren met cohere-rerankeringsmodellen, moet u de aangepaste rerank-API's van Cohere gebruiken. Zie Cohere rerankeren voor meer informatie over het cohere-herrankingsmodel en de mogelijkheden ervan.
Prijzen voor Cohere herrangschikkingsmodellen
Query's, niet te verwarren met de query van een gebruiker, is een prijsmeter die verwijst naar de kosten die zijn gekoppeld aan de tokens die worden gebruikt als invoer voor deductie van een Cohere Rerank-model. Cohere telt één zoekeenheid als een query met maximaal 100 documenten die moeten worden gerangschikt. Documenten die langer zijn dan 500 tokens (voor Cohere-rerank-v3.5) of langer dan 4096 tokens (voor Cohere-rerank-v3-Engels en Cohere-rerank-v3-meertalig) wanneer de lengte van de zoekquery wordt meegerekend, worden opgesplitst in meerdere delen, waarbij elk deel telt als één document.
Zie de Cohere modelcollectie in het Foundry-portaal.
Core42
De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Jais-modellen.
| Beschrijving | Taal | Monster |
|---|---|---|
| Azure AI-inferentiepakket voor C# | C# | Link |
| Azure AI Inference-pakket voor JavaScript | Javascript | Link |
| Azure AI-inferentiepakket voor Python | Python | Link |
DeepSeek
De DeepSeek-serie modellen bevat DeepSeek-R1, die uitblinkt in redeneringstaken met behulp van een stapsgewijs trainingsproces, zoals taal, wetenschappelijke redenering en coderingstaken, DeepSeek-V3-0324, een Mix-of-Experts-taalmodel (MoE) en meer.
De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van DeepSeek-modellen.
| Beschrijving | Taal | Monster |
|---|---|---|
| Azure AI-inferentiepakket voor Python | Python | Link |
| Azure AI Inference-pakket voor JavaScript | Javascript | Link |
| Azure AI-inferentiepakket voor C# | C# | Link |
| Azure AI Inference-pakket voor Java | Java | Link |
Meta
Meta Llama-modellen en -hulpprogramma's zijn een verzameling vooraf getrainde en verfijnde AI-tekst- en afbeeldingsredenmodellen. De metamodellenreeks varieert in schaal om het volgende te omvatten:
- Kleine taalmodellen (SLM's) zoals 1B en 3B Base en Instruct-modellen voor inferentie op het apparaat en randapparatuur
- Middelgrote grote taalmodellen (LLM's) zoals 7B, 8B en 70B Base- en Instruct-modellen
- Krachtige modellen zoals Meta Llama 3.1-405B Instruct voor synthetische datageneratie en distillatie toepassingen.
- Hoogwaardig presterende inheemse multimodale modellen, Llama 4 Scout en Llama 4 Maverick, maken gebruik van een mix-van-experts-architectuur om toonaangevende prestaties te bieden in tekst- en afbeeldingsbegrip.
De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Meta Llama-modellen.
| Beschrijving | Taal | Monster |
|---|---|---|
| CURL-aanvraag | Bash | Link |
| Azure AI-inferentiepakket voor C# | C# | Link |
| Azure AI Inference-pakket voor JavaScript | Javascript | Link |
| Azure AI-inferentiepakket voor Python | Python | Link |
| Python webaanvragen | Python | Link |
| OpenAI SDK (experimenteel) | Python | Link |
| LangChain | Python | Link |
| LiteLLM | Python | Link |
Microsoft
Microsoft modellen omvatten verschillende modelgroepen, zoals MAI-modellen, Phi-modellen, AI-modellen voor gezondheidszorg en meer. Als u alle beschikbare Microsoft modellen wilt bekijken, bekijkt u de Microsoft modelverzameling in de Foundry-portal.
De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Microsoft modellen.
| Beschrijving | Taal | Monster |
|---|---|---|
| Azure AI-inferentiepakket voor C# | C# | Link |
| Azure AI-inferentiepakket voor JavaScript | Javascript | Link |
| Azure AI-inferencepakket voor Python | Python | Link |
| LangChain | Python | Link |
| Llama-Index | Python | Link |
Zie de Microsoft modelverzameling in de Foundry-portal.
Mistral AI
Mistral AI biedt twee categorieën modellen, namelijk:
- Premium-modellen: deze omvatten Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) en Ministral 3B-modellen en zijn beschikbaar als serverloze API's met betalen per gebruik-token gebaseerde facturering.
- Open modellen: deze omvatten Mistral-small-2503, Codestral en Mistral Nemo (die beschikbaar zijn als serverloze API's met betalen per gebruik-token) en Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 en Mistral-7B-v01 (die beschikbaar zijn om te downloaden en te worden uitgevoerd op zelf-hostende beheerde eindpunten).
De volgende tabel bevat koppelingen naar voorbeelden van het gebruik van Mistral-modellen.
| Beschrijving | Taal | Monster |
|---|---|---|
| CURL-aanvraag | Bash | Link |
| Azure AI-inferentiepakket voor C# | C# | Link |
| Azure AI Inference-pakket voor JavaScript | Javascript | Link |
| Azure AI-inferentiepakket voor Python | Python | Link |
| Python webaanvragen | Python | Link |
| OpenAI SDK (experimenteel) | Python | Mistral - OpenAI SDK-voorbeeld |
| LangChain | Python | Mistral - LangChain-voorbeeld |
| Mistral AI | Python | Mistral - Mistral AI-voorbeeld |
| LiteLLM | Python | Mistral - LiteLLM-voorbeeld |
Nixtla
TimeGEN-1 van Nixtla is een generatief vooraf getraind voorspellend en anomaliedetectiemodel voor tijdreeksgegevens. TimeGEN-1 kan nauwkeurige prognoses produceren voor nieuwe tijdreeksen zonder training, waarbij alleen historische waarden en exogene covariaten als invoer worden gebruikt.
Als u deductie wilt uitvoeren, moet u voor TimeGEN-1 de aangepaste deductie-API van Nixtla gebruiken. Zie Nixtla voor meer informatie over het TimeGEN-1-model en de mogelijkheden ervan.
Het aantal benodigde tokens schatten
Voordat u een TimeGEN-1-implementatie maakt, is het handig om een schatting te maken van het aantal tokens waarvoor u van plan bent te gebruiken en te worden gefactureerd. Eén token komt overeen met één gegevenspunt in uw invoergegevensset of uitvoergegevensset.
Stel dat u de volgende gegevensset voor invoertijdreeksen hebt:
| Unique_id | Tijdstempel | Doelvariabele | Exogene variabele 1 | Exogene variabele 2 |
|---|---|---|---|---|
| Without additional context, no specific improvements can be provided to ensure accuracy. | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| WORDEN | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
Als u het aantal tokens wilt bepalen, vermenigvuldigt u het aantal rijen (in dit voorbeeld twee) met het aantal kolommen dat wordt gebruikt voor het voorspellen, waarbij de kolommen unique_id en tijdstempel niet worden meegeteld (in dit voorbeeld drie), om een totaal van zes tokens te krijgen.
Gegeven de volgende uitvoergegevensset:
| Unique_id | Tijdstempel | Voorspelde doelvariabele |
|---|---|---|
| n/a | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
U kunt ook het aantal tokens bepalen door het aantal geretourneerde gegevenspunten te tellen na gegevensprognose. In dit voorbeeld is het aantal tokens twee.
Prijzen schatten op basis van tokens
Er zijn vier prijsmeters die de prijs bepalen die u betaalt. Deze meters zijn als volgt:
| Prijsmeter | Beschrijving |
|---|---|
| paygo-inferentie-invoertokens | Kosten die zijn gekoppeld aan de tokens die worden gebruikt als invoer voor inference wanneer finetune_steps = 0 |
| paygo-inferentie-output-tokens | Kosten die verbonden zijn aan de tokens die worden gebruikt als uitvoer voor inferentie wanneer finetune_steps = 0 |
| paygo-finetuned-model-inferentie-input-tokens | Kosten die verbonden zijn aan de tokens die worden gebruikt als invoer voor inferentie wanneer finetune_steps> 0 |
| paygo-gefinetunede-model-inferentie-uitvoer-tokens | Kosten die zijn gekoppeld aan de tokens die worden gebruikt als uitvoer voor inferentie wanneer finetune_steps> 0 |
Zie de Nixtla-modelverzameling in Foundry Portal.
Ai voor stabiliteit
Stability AI-modellen die via serverloze API-implementatie worden ingezet, voeren de Model Inference API uit op de route /image/generations.
Zie de volgende voorbeelden voor voorbeelden van het gebruik van AI-modellen voor stabiliteit:
- Gebruik de OpenAI SDK met Stability AI-modellen voor aanvragen van tekst naar afbeelding
- Requests-bibliotheek gebruiken met Stability AI-modellen voor tekst-naar-afbeelding aanvragen
- Gebruik de Requests-bibliotheek met Stable Diffusion 3.5 Large voor beeld-naar-beeld aanvragen
- Voorbeeld van een volledig gecodeerd antwoord voor het genereren van afbeeldingen
Gretel Navigator
Gretel Navigator maakt gebruik van een samengestelde AI-architectuur die speciaal is ontworpen voor synthetische gegevens, door de combinatie van top opensource kleine taalmodellen (SLM's) die zijn afgestemd op meer dan 10 branchedomeinen. Met dit speciaal gebouwde systeem worden diverse domeinspecifieke gegevenssets gemaakt op schaal van honderden tot miljoenen voorbeelden. Het systeem behoudt ook complexe statistische relaties en biedt meer snelheid en nauwkeurigheid in vergelijking met het handmatig maken van gegevens.
| Beschrijving | Taal | Monster |
|---|---|---|
| Azure AI Inference-pakket voor JavaScript | Javascript | Link |
| Azure AI-inferentiepakket voor Python | Python | Link |