Generative KI-Modelle
Tip
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Generative KI- und agentische Lösungen basieren auf Sprachmodellen. Große Sprachmodelle (LLMs) bilden die Grundlage für generative KI-Lösungen, die eine Vielzahl von Antworten bieten können. Heute gibt es eine breite Palette von Modellen, die unterschiedlichen Bedürfnissen dienen. Die KI-Funktionen in einer einfachen Telefonanwendung können z. B. am besten auf einem kleinen Sprachmodell ausgeführt werden, während eine Regierungsanwendung möglicherweise ein domänenspezifisches Modell erfordert.
Microsoft Foundry bietet eine integrierte Umgebung zum Ermitteln, Bewerten, Bereitstellen und Betreiben von generativen KI-Modellen. Es vereint einen umfassenden Modellkatalog, flexible Bereitstellungsoptionen und integrierte Governance-Funktionen, damit Teams Copiloten, Agents und KI-basierte Anwendungen mit Unternehmensvertrauen erstellen können.
Hinweis
Um Microsoft Foundry verwenden zu können, benötigen Sie ein Azure-Abonnement. Um die Funktionen von Foundry zu nutzen, erstellen Sie zunächst ein Projekt in Foundry. Weitere Informationen finden Sie unter "Erste Schritte in Microsoft Foundry".
Entdecken von Modellen im Modellkatalog von Foundry
Der Modellkatalog von Foundry ist ein zentraler Hub für die Entdeckung und Verwendung einer breiten Auswahl an generativen KI-Modellen aus einer umfangreichen Palette von Anbietern. In Foundry können Sie Modelle nach Quelle, Fähigkeiten, Inferenzaufgaben und mehr filtern. Foundry ermöglicht es Ihnen, Modellfunktionen zu verstehen und zu vergleichen sowie skalierbare, sichere, verantwortungsvolle KI-Lösungen zu testen und zu erstellen.
Hinweis
Das Foundry-Portal verfügt über eine klassische Benutzeroberfläche (UI) und eine neue Benutzeroberfläche. Bilder des Gießereiportals spiegeln die neue Benutzeroberfläche wider, in der sie relevant ist.
Der Modellkatalog bietet eine breite Auswahl an Modellen, darunter Modelle, die direkt von Azure verkauft werden, zusammen mit Modellen von Partnern und Open-Source-Communitys.
Modelle, die direkt von Azure verkauft werden: Diese Modelle werden von Microsoft unter den Microsoft-Produktbedingungen gehostet. Sie bieten hohe Integrationsebenen in Azure, Vereinbarungen auf Unternehmensniveau (Service Level Agreements, SLAs), vorkonfigurierte Sicherheit und Complianceausrichtung.
Modelle von Partnern und der Community: Umfasst open-source- oder vom Anbieter gehostete Modelle, die über den Katalog integriert werden. Diese Modelle unterstützen breitere Experimente und schnelle Innovation und eignen sich häufig für spezielle oder domänenspezifische Aufgaben.
Jeder Modelleintrag umfasst in der Regel Folgendes:
- Modellbeschreibungen und -funktionen (Textgenerierung, Begründung, Codierung, multimodale, Einbettungen usw.)
- Benchmarkergebnisse und Leistungsvergleiche
- Unterstützte Ableitungsaufgaben und Feinabstimmungsoptionen
- Verantwortungsvolle KI-Dokumentation (Modellkarten, Einschränkungen, Vorbehalte)
Häufig verwendete Modellfamilien
Unter den mehr als tausend Modellen, die in Foundry erhältlich sind, sind viele nach Modellfamilien gruppiert. Eine Modellfamilie bezieht sich auf eine Gruppe verwandter Modelle, die die gleiche zugrunde liegende Architektur oder Linien aufweisen, sich jedoch in Größe, Funktion, Spezialisierung oder Version unterscheiden.
Häufig verwendete Modellfamilien umfassen:
GPT-5.x: Optimiert für mehrstufige Gründe, strukturierte Logik, Planung und agentische Workflows. Es eignet sich gut in Szenarien, die hohe Genauigkeit beim Schlussfolgern und ein Verständnis für längere Kontexte benötigen, z. B. das Generieren von technischen Berichten, Code-Analyse oder die Orchestrierung von Multi-Tool-Agenten. Es unterstützt anpassbare "Denkniveaus", sodass Entwickler bei Bedarf Geschwindigkeit gegen Genauigkeit abwägen können.
Claude Opus 4.5 (Anthropic): Wenn Sie ein Modell auf Grenzebene für anspruchsvolle Agenten, komplexe Codegrundlegungen oder mehrstufige Computerverwendungsaufgaben benötigen. Opus 4.5 wird als das intelligenteste Modell von Anthropic beschrieben, mit starker Leistung in den Bereichen Codierung, Agenten und der Verwendung von Computern sowie großen Kontext- und Ausgabefenstern – nützlich für lange Spezifikationen, Multidatei-Diffs oder erweiterte Recherchenotizen.
Mistral Large 3 (Mistral AI): ist ein hochmodernes, allgemeines Modell ideal für den Ort, an dem Sie eine starke Qualität mit effizientem Durchsatz wünschen. Das Modell eignet sich gut für mehrsprachige Erstellung, strukturierte Erstellung von Geschäftsberichten oder Aufgaben mit mittlerer Latenz, die Kosten und Leistung ausgleichen. Mistral Large 3 ist ein hochmodernes allgemeines Modell und Teil des kuratierten Foundry-Katalogs, wodurch es zu einer praktischen Alternative zu Flaggschiffmodellen wird, wenn Sie hohe Leistung mit flexiblen Kosten- und Latenzkompromissen wünschen.
Hinweis
Die Registrierung ist derzeit für die GPT-5-Modellfamilie erforderlich, schränkt die Verfügbarkeit ein. Alle Foundry-Benutzer können GPT-4.1 verwenden, das ideal für Echtzeitchats, Kundensupport und interaktive Anwendungen ist, die schnell und in großem Umfang reagieren müssen. Es ist für Geschwindigkeit, Effizienz und Low-Latency-Inferenz optimiert, sodass es besser ist als rechenintensive Modelle für hochvolumige Produktionsarbeitslasten.
In Foundry sind Basismodelle große, vortrainierte Modelle wie GPT, Claude, Mistral und andere, die allgemeine Sprache, Schlussfolgerungen oder multimodale Funktionen aus der Box bieten. Diese Modelle können sofort bereitgestellt oder durch Feinabstimmung angepasst werden und dienen als Basisebene zum Erstellen von KI-Anwendungen.
Modelle in Foundry auswerten
Die Auswahl des richtigen Modells in Foundry beginnt mit dem Verständnis Ihrer Arbeitsauslastung, des Aufgabentyps und der Einschränkungen.
Auswählen eines Modells nach Aufgabentyp
| Aufgabe | Empfohlene Modelltypen | Modelldetails |
|---|---|---|
| Chat | GPT-5.x Chat, Claude Sonnet/Opus, Mistral-Large-3, DeepSeek V3.1, kleine Sprachmodelle (SLMs) wie Phi-4 oder Llama | Starke Schlussfolgerungen, Gesprächsfeinabstimmung, Sicherheit |
| Coding | GPT-5.1-codex, Claude-Sonnet | Unterstützung für komplexe Agentabläufe |
| Zusammenfassung | GPT-5.x Schlussfolgerungsmodelle, Claude Opus/Sonnet | Komprimierung mit umfangreichem Kontext und hoher Qualität |
| Embeddings | Text-Embedding-3-Small oder andere Einbettungsmodelle | Erstellt für semantische Vektordarstellungen |
| Multimodale | Phi-4-multimodal-instruct, GPT-5.x chat multimodal, Mistral-Large-3 | Unterstützung für Bilder, Audio und Video in Chat-Vervollständigungen |
| Branchen- oder domänenspezifische | Domänenspezifische Modelle im Katalog | Anwendungen, die für eine Branche spezifisch sind, z. B. Finanzen, Gesundheitswesen, Legal |
Hinweis
Wenn der Anwendungsfall gut definiert ist, anstatt ein Modell aus dem Modellkatalog auszuwählen, können Sie ein Foundry-Tool auswählen. Foundry-Tools werden von vorgefertigten Modellen angetrieben, die vorhersehbare Leistung, eingebaute Compliance und schnelle Wertschöpfung ohne kundenspezifisches Modellieren bieten.
Bewertung und Vergleich von Modellen in Foundry
Der Modellkatalog von Foundry enthält Benchmarking-Ergebnisse, die zeigen, wie Modelle auf Standard-Datasets ausgeführt werden. Benchmarkbewertungen vereinfachen die Modellauswahl mithilfe konsistenter Bewertungskriterien.
Über das Gießereiportal können Sie auch Folgendes anzeigen:
- Modell-Bestenlisten: Bestenlisten rangieren Modelle basierend auf Attributen wie Qualität, Sicherheit und Durchsatz. Dadurch wird das beste Modell für eine Aufgabe identifiziert. Beispiele für Aufgaben sind Reasoning, Zusammenfassung, Codegenerierung.
- Vergleiche und Filter: Paralleler Modellvergleich nach Qualität und Genauigkeit, Kosten, Sicherheit und Compliance sowie Leistungsmetriken. Sie können nach Industrie, Anwendungsfall, Modelltyp, Lizenzierung und mehr filtern.
Eine gängige Methode, die Sie auswerten können, besteht darin, im Modellkatalog von Foundry zu beginnen, ein Modell auszuwählen, und wählen Sie dann Benchmarks → Testen mit Ihren eigenen Daten aus. Sie können Eingabeaufforderungen ausprobieren und sehen, ob die Antworten erwartungsgemäß sind.
Es gibt verschiedene Möglichkeiten, ein Modell im Foundry-Portal zu bewerten, darunter NLP-Metriken (Natural Language Processing) und KI-unterstützte Qualitätsmetriken. Beispiele für klassische NLP-Qualitätsmetriken sind: Genauigkeit, Präzision, Erinnerung und F1. Beispiele für KI-unterstützte Metriken sind Geerdetheit, Relevanz, Kohärenz und Flunz sowie GPT-Ähnlichkeit. Wählen Sie KI-unterstützte Metriken für eine qualitative Bewertung aus, die über herkömmliche Metriken hinausgeht.
In Foundry sind Evaluatoren Komponenten, die zur Messung der Qualität, Sicherheit und Effektivität von KI-Modellen oder Agenten verwendet werden. Beispielsweise können Sicherheitsbewertungen verwendet werden, um eine verantwortungsvolle KI-Ausgabe zu gewährleisten. Sie suchen nach schädlichen oder unsicheren Inhalten, Voreingenommenheit und Unfairität, Gewalt, Selbstschäden oder geschützten Klassenschäden. Die Evaluator Library von Foundry bietet wiederverwendbare Evaluatoren für die Qualitätsbewertung, Sicherheitsüberprüfung und mehr.
Hinweis
Die Evaluatoren von Foundry erkennen, scannen und bewerten Probleme, lösen sie jedoch nicht aktiv auf.
Bereitstellen von Modellen in Foundry
Sobald Sie ein Modell ausgewählt haben, bietet Foundry flexible Bereitstellungsmechanismen, mit denen Sie Die Leistung, Kosten und Governance anpassen können. Die Bereitstellung eines Modells verwendet ein KI-Modell und stellt es für die Verwendung in der Produktion über einen stabilen, skalierbaren und sicheren Endpunkt zur Verfügung. Die Bereitstellung eines konfigurierten Modells wandelt das Modell in einen Dienst um, den Anwendungen aufrufen können – in der Regel über eine API. Durch die Bereitstellung eines konfigurierten Modells wird eine konsistente Leistung und Zuverlässigkeit sichergestellt. Außerdem können Entwickler nicht autorisierte oder unsichere Verwendung verhindern.
Bereitstellungsparameter, die Sie in Foundry anpassen können, umfassen:
- Bereitstellungstyp: z. B. Standard, globaler Batch und regionaler bereitgestellter Durchsatz, bestimmen, wo und wie die Ableitung in Foundry verarbeitet wird. Bereitstellungstypen sind an Durchsatz- und Datenverarbeitungsanforderungen gebunden.
- Modellversion
- Token pro Minute (TPM) Ratenbegrenzung
Hinweis
Ein Token ist die kleinste Einheit von Text oder Daten, die ein generatives KI-Modell verarbeiten kann. Modelle unterteilen Eingaben in Token, z. B. Wörter, Unterwörter, Zeichen oder Interpunktion, damit sie sprache effizient verstehen und generieren können.
Wenn Sie ein Modell bereitstellen, können Sie ihm eine Token pro Minute (TPM)-Zuordnung zuweisen. TPM bestimmt die Geschwindigkeit und Skalierung, mit der das Modell Eingaben verarbeiten kann, und die Begrenzungen für die Geschwindigkeitsbegrenzung, z. B. Anforderungen pro Minute (RPM). Wenn Sie einer Modellbereitstellung eine höhere TPM-Zuweisung zuweisen, erhöhen Sie deren Kapazität, den Datenverkehr mit Token pro Minute zu handhaben. Ein niedrigeres TPM verringert die Möglichkeit, dass Ihre Bereitstellung Token über Anfragen hinweg konsumieren kann.
Grenzwerte unterscheiden sich je nach Modellfamilie, z. B.:
- Hochwertige Denkmodelle (zum Beispiel: DeepSeek R1, Grok, große Llama-Versionen) können hohe TPM-Grenzen aufweisen.
- Spezialisierte oder Imagemodelle arbeiten häufig mit Kapazitätseinheiten anstelle von TPM.
Die Drosselung in einem Berechnungskontext bedeutet, dass absichtlich verlangsamt oder eingeschränkt wird, wie viel Rechenarbeit gleichzeitig ausgeführt werden kann. Es handelt sich um einen Schutzmechanismus, der verwendet wird, wenn ein System nahe an seinen Verarbeitungsgrenzwerten liegt. Durch Drosselung wird die Ressourcennutzung vorübergehend eingeschränkt, sodass das System stabil und reaktionsfähig bleiben kann.
Limits auf Bereitstellungsebene definieren, wie viele Token oder Anfragen verarbeitet werden können, bevor eine Drosselung eintritt. Größere Prompts und höhere Einstellungen für maximal zulässige Ausgabetoken verbrauchen mehr TPM, was zu Ratenlimit-Fehlern führt, wenn diese überschritten werden (siehe Drosselungsbeschreibung der Suchergebnisse). Wenn Sie eine Drosselung feststellen, verringern Sie die Anzahl an maximalen Tokens oder reduzieren Sie die gleichzeitigen Anforderungen im Code.
Wenn Sie ein Modell in Foundry bereitstellen, treten mehrere Dinge auf:
- Computeressourcen werden zugewiesen: Foundry weist die zum Ausführen des Modells erforderliche Hardware zu – CPUs, GPUs, Arbeitsspeicher, Netzwerk und Skalierungsregeln.
- Es wird ein API-Endpunkt erstellt: Sie können das Modell über die OpenAI-Antwort-API sicher aufrufen, die über Verwaltungs-API-Überprüfungen überprüft wird.
- Die Konfiguration (z. B. Modellversion, Antwortstil, Sicherheitseinstellungen) ist gesperrt.
- Überwachung und Protokollierung werden aktiv: Nutzungsmetriken, Leistung, Latenz, Fehler und Kosten werden nachverfolgt.
Erfahren Sie als Nächstes, wie Sie diese Modelle im Gießereiportal-Playground konfigurieren und in einer Clientanwendung verwenden.