Generative KI-Modelle

6 Minuten

Tip

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Generative KI- und agentische Lösungen basieren auf Sprachmodellen. Große Sprachmodelle (LLMs) bilden die Grundlage für generative KI-Lösungen, die eine Vielzahl von Antworten bieten können. Heute gibt es eine breite Palette von Modellen, die unterschiedlichen Bedürfnissen dienen. Die KI-Funktionen in einer einfachen Telefonanwendung können z. B. am besten auf einem kleinen Sprachmodell ausgeführt werden, während eine Regierungsanwendung möglicherweise ein domänenspezifisches Modell erfordert.

Microsoft Foundry bietet eine integrierte Umgebung zum Ermitteln, Bewerten, Bereitstellen und Betreiben von generativen KI-Modellen. Es vereint einen umfassenden Modellkatalog, flexible Bereitstellungsoptionen und integrierte Governance-Funktionen, damit Teams Copiloten, Agents und KI-basierte Anwendungen mit Unternehmensvertrauen erstellen können.

Hinweis

Um Microsoft Foundry verwenden zu können, benötigen Sie ein Azure-Abonnement. Um die Funktionen von Foundry zu nutzen, erstellen Sie zunächst ein Projekt in Foundry. Weitere Informationen finden Sie unter "Erste Schritte in Microsoft Foundry".

Entdecken von Modellen im Modellkatalog von Foundry

Der Modellkatalog von Foundry ist ein zentraler Hub für die Entdeckung und Verwendung einer breiten Auswahl an generativen KI-Modellen aus einer umfangreichen Palette von Anbietern. In Foundry können Sie Modelle nach Quelle, Fähigkeiten, Inferenzaufgaben und mehr filtern. Foundry ermöglicht es Ihnen, Modellfunktionen zu verstehen und zu vergleichen sowie skalierbare, sichere, verantwortungsvolle KI-Lösungen zu testen und zu erstellen.

Hinweis

Das Foundry-Portal verfügt über eine klassische Benutzeroberfläche (UI) und eine neue Benutzeroberfläche. Bilder des Gießereiportals spiegeln die neue Benutzeroberfläche wider, in der sie relevant ist.

Screenshot des Modellkatalogs von Foundry mit der neuen Benutzeroberfläche.

Der Modellkatalog bietet eine breite Auswahl an Modellen, darunter Modelle, die direkt von Azure verkauft werden, zusammen mit Modellen von Partnern und Open-Source-Communitys.

Modelle, die direkt von Azure verkauft werden: Diese Modelle werden von Microsoft unter den Microsoft-Produktbedingungen gehostet. Sie bieten hohe Integrationsebenen in Azure, Vereinbarungen auf Unternehmensniveau (Service Level Agreements, SLAs), vorkonfigurierte Sicherheit und Complianceausrichtung.
Modelle von Partnern und der Community: Umfasst open-source- oder vom Anbieter gehostete Modelle, die über den Katalog integriert werden. Diese Modelle unterstützen breitere Experimente und schnelle Innovation und eignen sich häufig für spezielle oder domänenspezifische Aufgaben.

Jeder Modelleintrag umfasst in der Regel Folgendes:

Modellbeschreibungen und -funktionen (Textgenerierung, Begründung, Codierung, multimodale, Einbettungen usw.)
Benchmarkergebnisse und Leistungsvergleiche
Unterstützte Ableitungsaufgaben und Feinabstimmungsoptionen
Verantwortungsvolle KI-Dokumentation (Modellkarten, Einschränkungen, Vorbehalte)

Screenshot der Modelleinträge von Foundry mit gpt-4.1 als Beispiel.

Häufig verwendete Modellfamilien

Unter den mehr als tausend Modellen, die in Foundry erhältlich sind, sind viele nach Modellfamilien gruppiert. Eine Modellfamilie bezieht sich auf eine Gruppe verwandter Modelle, die die gleiche zugrunde liegende Architektur oder Linien aufweisen, sich jedoch in Größe, Funktion, Spezialisierung oder Version unterscheiden.

Häufig verwendete Modellfamilien umfassen:

GPT-5.x: Optimiert für mehrstufige Gründe, strukturierte Logik, Planung und agentische Workflows. Es eignet sich gut in Szenarien, die hohe Genauigkeit beim Schlussfolgern und ein Verständnis für längere Kontexte benötigen, z. B. das Generieren von technischen Berichten, Code-Analyse oder die Orchestrierung von Multi-Tool-Agenten. Es unterstützt anpassbare "Denkniveaus", sodass Entwickler bei Bedarf Geschwindigkeit gegen Genauigkeit abwägen können.
Claude Opus 4.5 (Anthropic): Wenn Sie ein Modell auf Grenzebene für anspruchsvolle Agenten, komplexe Codegrundlegungen oder mehrstufige Computerverwendungsaufgaben benötigen. Opus 4.5 wird als das intelligenteste Modell von Anthropic beschrieben, mit starker Leistung in den Bereichen Codierung, Agenten und der Verwendung von Computern sowie großen Kontext- und Ausgabefenstern – nützlich für lange Spezifikationen, Multidatei-Diffs oder erweiterte Recherchenotizen.
Mistral Large 3 (Mistral AI): ist ein hochmodernes, allgemeines Modell ideal für den Ort, an dem Sie eine starke Qualität mit effizientem Durchsatz wünschen. Das Modell eignet sich gut für mehrsprachige Erstellung, strukturierte Erstellung von Geschäftsberichten oder Aufgaben mit mittlerer Latenz, die Kosten und Leistung ausgleichen. Mistral Large 3 ist ein hochmodernes allgemeines Modell und Teil des kuratierten Foundry-Katalogs, wodurch es zu einer praktischen Alternative zu Flaggschiffmodellen wird, wenn Sie hohe Leistung mit flexiblen Kosten- und Latenzkompromissen wünschen.

Hinweis

Die Registrierung ist derzeit für die GPT-5-Modellfamilie erforderlich, schränkt die Verfügbarkeit ein. Alle Foundry-Benutzer können GPT-4.1 verwenden, das ideal für Echtzeitchats, Kundensupport und interaktive Anwendungen ist, die schnell und in großem Umfang reagieren müssen. Es ist für Geschwindigkeit, Effizienz und Low-Latency-Inferenz optimiert, sodass es besser ist als rechenintensive Modelle für hochvolumige Produktionsarbeitslasten.

In Foundry sind Basismodelle große, vortrainierte Modelle wie GPT, Claude, Mistral und andere, die allgemeine Sprache, Schlussfolgerungen oder multimodale Funktionen aus der Box bieten. Diese Modelle können sofort bereitgestellt oder durch Feinabstimmung angepasst werden und dienen als Basisebene zum Erstellen von KI-Anwendungen.

Modelle in Foundry auswerten

Die Auswahl des richtigen Modells in Foundry beginnt mit dem Verständnis Ihrer Arbeitsauslastung, des Aufgabentyps und der Einschränkungen.

Auswählen eines Modells nach Aufgabentyp

Aufgabe	Empfohlene Modelltypen	Modelldetails
Chat	GPT-5.x Chat, Claude Sonnet/Opus, Mistral-Large-3, DeepSeek V3.1, kleine Sprachmodelle (SLMs) wie Phi-4 oder Llama	Starke Schlussfolgerungen, Gesprächsfeinabstimmung, Sicherheit
Coding	GPT-5.1-codex, Claude-Sonnet	Unterstützung für komplexe Agentabläufe
Zusammenfassung	GPT-5.x Schlussfolgerungsmodelle, Claude Opus/Sonnet	Komprimierung mit umfangreichem Kontext und hoher Qualität
Embeddings	Text-Embedding-3-Small oder andere Einbettungsmodelle	Erstellt für semantische Vektordarstellungen
Multimodale	Phi-4-multimodal-instruct, GPT-5.x chat multimodal, Mistral-Large-3	Unterstützung für Bilder, Audio und Video in Chat-Vervollständigungen
Branchen- oder domänenspezifische	Domänenspezifische Modelle im Katalog	Anwendungen, die für eine Branche spezifisch sind, z. B. Finanzen, Gesundheitswesen, Legal

Hinweis

Wenn der Anwendungsfall gut definiert ist, anstatt ein Modell aus dem Modellkatalog auszuwählen, können Sie ein Foundry-Tool auswählen. Foundry-Tools werden von vorgefertigten Modellen angetrieben, die vorhersehbare Leistung, eingebaute Compliance und schnelle Wertschöpfung ohne kundenspezifisches Modellieren bieten.

Bewertung und Vergleich von Modellen in Foundry

Der Modellkatalog von Foundry enthält Benchmarking-Ergebnisse, die zeigen, wie Modelle auf Standard-Datasets ausgeführt werden. Benchmarkbewertungen vereinfachen die Modellauswahl mithilfe konsistenter Bewertungskriterien.

Über das Gießereiportal können Sie auch Folgendes anzeigen:

Modell-Bestenlisten: Bestenlisten rangieren Modelle basierend auf Attributen wie Qualität, Sicherheit und Durchsatz. Dadurch wird das beste Modell für eine Aufgabe identifiziert. Beispiele für Aufgaben sind Reasoning, Zusammenfassung, Codegenerierung.
Vergleiche und Filter: Paralleler Modellvergleich nach Qualität und Genauigkeit, Kosten, Sicherheit und Compliance sowie Leistungsmetriken. Sie können nach Industrie, Anwendungsfall, Modelltyp, Lizenzierung und mehr filtern.

Screenshot der Foundry-Modell-Rangliste und paralleler Vergleiche.

Eine gängige Methode, die Sie auswerten können, besteht darin, im Modellkatalog von Foundry zu beginnen, ein Modell auszuwählen, und wählen Sie dann Benchmarks → Testen mit Ihren eigenen Daten aus. Sie können Eingabeaufforderungen ausprobieren und sehen, ob die Antworten erwartungsgemäß sind.

Es gibt verschiedene Möglichkeiten, ein Modell im Foundry-Portal zu bewerten, darunter NLP-Metriken (Natural Language Processing) und KI-unterstützte Qualitätsmetriken. Beispiele für klassische NLP-Qualitätsmetriken sind: Genauigkeit, Präzision, Erinnerung und F1. Beispiele für KI-unterstützte Metriken sind Geerdetheit, Relevanz, Kohärenz und Flunz sowie GPT-Ähnlichkeit. Wählen Sie KI-unterstützte Metriken für eine qualitative Bewertung aus, die über herkömmliche Metriken hinausgeht.

In Foundry sind Evaluatoren Komponenten, die zur Messung der Qualität, Sicherheit und Effektivität von KI-Modellen oder Agenten verwendet werden. Beispielsweise können Sicherheitsbewertungen verwendet werden, um eine verantwortungsvolle KI-Ausgabe zu gewährleisten. Sie suchen nach schädlichen oder unsicheren Inhalten, Voreingenommenheit und Unfairität, Gewalt, Selbstschäden oder geschützten Klassenschäden. Die Evaluator Library von Foundry bietet wiederverwendbare Evaluatoren für die Qualitätsbewertung, Sicherheitsüberprüfung und mehr.

Hinweis

Die Evaluatoren von Foundry erkennen, scannen und bewerten Probleme, lösen sie jedoch nicht aktiv auf.

Bereitstellen von Modellen in Foundry

Sobald Sie ein Modell ausgewählt haben, bietet Foundry flexible Bereitstellungsmechanismen, mit denen Sie Die Leistung, Kosten und Governance anpassen können. Die Bereitstellung eines Modells verwendet ein KI-Modell und stellt es für die Verwendung in der Produktion über einen stabilen, skalierbaren und sicheren Endpunkt zur Verfügung. Die Bereitstellung eines konfigurierten Modells wandelt das Modell in einen Dienst um, den Anwendungen aufrufen können – in der Regel über eine API. Durch die Bereitstellung eines konfigurierten Modells wird eine konsistente Leistung und Zuverlässigkeit sichergestellt. Außerdem können Entwickler nicht autorisierte oder unsichere Verwendung verhindern.

Bereitstellungsparameter, die Sie in Foundry anpassen können, umfassen:

Bereitstellungstyp: z. B. Standard, globaler Batch und regionaler bereitgestellter Durchsatz, bestimmen, wo und wie die Ableitung in Foundry verarbeitet wird. Bereitstellungstypen sind an Durchsatz- und Datenverarbeitungsanforderungen gebunden.
Modellversion
Token pro Minute (TPM) Ratenbegrenzung

Hinweis

Ein Token ist die kleinste Einheit von Text oder Daten, die ein generatives KI-Modell verarbeiten kann. Modelle unterteilen Eingaben in Token, z. B. Wörter, Unterwörter, Zeichen oder Interpunktion, damit sie sprache effizient verstehen und generieren können.

Wenn Sie ein Modell bereitstellen, können Sie ihm eine Token pro Minute (TPM)-Zuordnung zuweisen. TPM bestimmt die Geschwindigkeit und Skalierung, mit der das Modell Eingaben verarbeiten kann, und die Begrenzungen für die Geschwindigkeitsbegrenzung, z. B. Anforderungen pro Minute (RPM). Wenn Sie einer Modellbereitstellung eine höhere TPM-Zuweisung zuweisen, erhöhen Sie deren Kapazität, den Datenverkehr mit Token pro Minute zu handhaben. Ein niedrigeres TPM verringert die Möglichkeit, dass Ihre Bereitstellung Token über Anfragen hinweg konsumieren kann.

Grenzwerte unterscheiden sich je nach Modellfamilie, z. B.:

Hochwertige Denkmodelle (zum Beispiel: DeepSeek R1, Grok, große Llama-Versionen) können hohe TPM-Grenzen aufweisen.
Spezialisierte oder Imagemodelle arbeiten häufig mit Kapazitätseinheiten anstelle von TPM.

Die Drosselung in einem Berechnungskontext bedeutet, dass absichtlich verlangsamt oder eingeschränkt wird, wie viel Rechenarbeit gleichzeitig ausgeführt werden kann. Es handelt sich um einen Schutzmechanismus, der verwendet wird, wenn ein System nahe an seinen Verarbeitungsgrenzwerten liegt. Durch Drosselung wird die Ressourcennutzung vorübergehend eingeschränkt, sodass das System stabil und reaktionsfähig bleiben kann.

Limits auf Bereitstellungsebene definieren, wie viele Token oder Anfragen verarbeitet werden können, bevor eine Drosselung eintritt. Größere Prompts und höhere Einstellungen für maximal zulässige Ausgabetoken verbrauchen mehr TPM, was zu Ratenlimit-Fehlern führt, wenn diese überschritten werden (siehe Drosselungsbeschreibung der Suchergebnisse). Wenn Sie eine Drosselung feststellen, verringern Sie die Anzahl an maximalen Tokens oder reduzieren Sie die gleichzeitigen Anforderungen im Code.

Wenn Sie ein Modell in Foundry bereitstellen, treten mehrere Dinge auf:

Computeressourcen werden zugewiesen: Foundry weist die zum Ausführen des Modells erforderliche Hardware zu – CPUs, GPUs, Arbeitsspeicher, Netzwerk und Skalierungsregeln.
Es wird ein API-Endpunkt erstellt: Sie können das Modell über die OpenAI-Antwort-API sicher aufrufen, die über Verwaltungs-API-Überprüfungen überprüft wird.
Die Konfiguration (z. B. Modellversion, Antwortstil, Sicherheitseinstellungen) ist gesperrt.
Überwachung und Protokollierung werden aktiv: Nutzungsmetriken, Leistung, Latenz, Fehler und Kosten werden nachverfolgt.

Erfahren Sie als Nächstes, wie Sie diese Modelle im Gießereiportal-Playground konfigurieren und in einer Clientanwendung verwenden.

Feedback

War diese Seite hilfreich?