Auswählen einer Azure-Spracherkennungs- und -Generationstechnologie

Foundry Tools hilft Entwicklern und Organisationen, KI-basierte, fortgeschrittene, produktionsfähige Anwendungen zu erstellen, die sich an verantwortungsvolle KI-Praktiken orientieren, indem sie sofort einsatzbereite, vorgefertigte und anpassbare APIs und Modelle verwenden.

In diesem Artikel werden die Funktionen "Speech-to-Text" (STT) und Text-zu-Sprache (TTS) in Tools beschrieben. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, ttS-Stimmen mit natürlichem Sound erzeugen, gesprochene Audio übersetzen und Live-KI-Sprachunterhaltungen durchführen. Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Führen Sie Azure Speech in Foundry Tools überall aus, einschließlich in der Cloud oder am Rand in Containern.

Azure Speech bietet STT, TTS, Sprachübersetzung, Sprecheridentifikation und benutzerdefinierte Sprachfunktionen. Verwenden Sie Azure Speech für Echtzeit- oder Batchtranskription, natürlich klingende Sprachsynthese, mehrsprachige Audioübersetzung und markenspezifische benutzerdefinierte Stimmen.
Azure OpenAI in Foundry Models bietet Audiomodelle, einschließlich GPT-4o Realtime für Sprachunterhaltungen mit geringer Latenz, GPT-4o-Audiomodelle für die abschlussbasierte Audiogenerierung und Audio-API-Modelle für dateibasierte STT-Transkription, Sprachübersetzung und TTS-Synthese. Verwenden Sie Azure OpenAI für Szenarien, die Audio mit Sprachverständnis, Begründung oder Generierung in einem einzelnen Modellaufruf kombinieren.

Azure Speech-Dienst

Azure Speech ist ein Dienst in Tools, der STT, TTS, Sprachübersetzung und andere Funktionen bereitstellt. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, ttS-Stimmen mit natürlichem Sound erzeugen, gesprochene Audio übersetzen und Live-KI-Sprachunterhaltungen durchführen.

Verwenden von Azure Speech für diese Aufgaben	Verwenden Sie Azure Speech nicht für diese Aufgaben.
Transkribieren oder übersetzen Sie gesprochene Sprache in Text in Echtzeit oder Batchverarbeitung.	Analysieren Sie Text, um Stimmungen zu erkennen oder Entitäten zu extrahieren. Verwenden Sie für diese Aufgaben azure Language in Foundry Tools.
Generieren Sie mithilfe von neuralen Stimmen natürlich klingende Sprache aus Text.	Moderate Inhalte zur Sicherheit. Verwenden Sie für die Inhaltsmoderation Content Safety im Foundry Control Plane.
Identifizieren Von Sprechern in einer Unterhaltung mithilfe der Sprachbiometrie.	Übersetzen Von Textdokumenten beim Beibehalten der Formatierung. Verwenden Sie für die Dokumentübersetzung Azure Translator in Foundry Tools.
Erstellen Sie benutzerdefinierte Stimmen, die für Ihre Marke oder Ihr Produkt einzigartig sind.

Verfügbare Azure Speech-Features

Die folgende Tabelle enthält eine Liste der features, die in Azure Speech verfügbar sind.

Funktion	Beschreibung
STT	Wandelt Audio in Text um. Wählen Sie aus Echtzeittranskription für Streamingaudio, schnelle Transkription für vorab aufgezeichnete Audiodateien oder Batchtranskription für die asynchrone Verarbeitung großer Audiomengen aus.
TTS	Wandelt Eingabetext in menschliche synthetisierte Sprache um, indem neurale Stimmen verwendet werden, die von tiefen neuralen Netzwerken unterstützt werden. Verwenden Sie Speech Synthesis Markup Language (SSML) zum Optimieren von Pitch, Aussprache, Sprachrate und Lautstärke.
TTS-Avatar	Wandelt Text in ein digitales Video eines fotorealistischen Menschen um, der mit einer natürlich klingenden Stimme spricht. Das Video kann asynchron oder in Echtzeit für synthetische sprechende Avatarvideos synthetisiert werden.
Sprachübersetzung	Ermöglicht die mehrsprachige Übersetzung von Sprache in Echtzeit in Ihre Anwendungen, Tools und Geräte. Verwenden Sie sie für die Sprach-zu-Sprache -Übersetzung (S2S) und STT-Übersetzung.
Sprachmodell-Spracherkennung (Vorschau)	Bietet verbesserte Qualität, tiefes Kontextverständnis, mehrsprachigen Support und Eingabeaufforderungsoptimierungsfunktionen. Unterstützt Transkriptions- und Übersetzungsaufgaben.
Sprachenerkennung	Identifiziert Sprachen, die in Audio gesprochen werden, indem sie mit einer Liste der unterstützten Sprachen verglichen werden. Verwenden Sie die Sprachidentifikation eigenständig, mit STT-Erkennung oder mit Sprachübersetzung.
Aussprachebewertung	Bewertet die Aussprache von Sprachaufnahmen und gibt den Sprechern Rückmeldung zur Genauigkeit und Flüssigkeit der gesprochenen Sprache. Sprachlerner können üben, sofortiges Feedback erhalten und ihre Aussprache verbessern.
Angepasste Sprache	Erstellen und trainieren Sie benutzerdefinierte Sprachmodelle mithilfe von akustischen, Sprach- und Aussprachedaten, wenn das Basismodell nicht für Audiodaten ausreicht, die Umgebungsgeräusche oder branchenspezifisches Jargon enthalten.
Benutzerdefinierte Stimme	Erstellen Sie eine benutzerdefinierte Stimme, die für Ihre Marke oder Ihr Produkt erkennbar und einzigartig ist. Benutzerdefinierte Stimmen sind privat und können einen Wettbewerbsvorteil bieten.

Auswählen eines Azure-Sprachfeatures

Die folgende Tabelle enthält eine Liste der möglichen Anwendungsfälle für Azure Speech.

Anwendungsfall	Funktion	Beschreibung
Untertitelung	STT	Synchronisieren Sie Beschriftungen mit Ihrem Eingabeaudio, wenden Sie Profanitätsfilter an, erhalten Sie Teilergebnisse, wenden Sie Anpassungen an, und identifizieren Sie gesprochene Sprachen für mehrsprachige Szenarien.
Erstellen von Audioinhalten	TTS	Machen Sie Interaktionen mit Chatbots und Sprachagenten natürlicher und ansprechender, konvertieren Sie digitale Texte wie E-Books in Hörbücher und verbessern Sie In-Car-Navigationssysteme.
Anrufcentertranskription	STT	Transkribieren Sie Anrufe in Echtzeit oder verarbeiten Sie eine Sammlung von Anrufen, schwärzen Sie persönliche Informationen und extrahieren Sie Einblicke wie Stimmungen, um das Kundenerlebnis zu verbessern.
Sprachenlernen	Aussprachebewertung	Geben Sie Aussprachebewertungs-Feedback für Sprachlerner, unterstützen Sie die Echtzeittranskription für Gespräche im Fernunterricht, und lesen Sie Unterrichtsmaterialien laut vor, durch die Verwendung neuronaler Stimmen.
Voice Live-API	TTS	Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Anwendungen und Erfahrungen. Die API bietet schnelle, zuverlässige Interaktionen zwischen einer menschlichen und einer Agentimplementierung.
Video-Avatarerstellung	TTS-Avatar	Erstellen Sie lebensnahe und qualitativ hochwertige synthetische sprechende Avatarvideos für verschiedene Echtzeit- und Batchanwendungen, während Sie verantwortungsvolle KI-Praktiken einhalten.

Integrationsoptionen

Sie können Azure Speech mithilfe der folgenden Tools in Ihre Anwendungen integrieren:

Speech Studio bietet UI-basierte Tools zum Erstellen und Integrieren von Features aus Azure Speech mithilfe eines codefreien Ansatzes.
Speech SDK macht viele Azure Speech-Funktionen für mehrere Programmiersprachen und Plattformen verfügbar.
Speech CLI ist ein Befehlszeilentool, mit dem Sie Azure Speech ohne Schreiben von Code verwenden können.
REST-APIs ermöglichen Ihnen den Zugriff auf Azure Speech, wenn Sie das Speech SDK nicht verwenden können oder nicht verwenden sollten.

Bereitstellungsoptionen

Sie können Azure Speech in der Cloud oder lokal bereitstellen. Mithilfe von Containern können Sie den Dienst aus Compliance-, Sicherheits- oder anderen betrieblichen Gründen näher an Ihre Daten ausführen. Die Azure-Sprachbereitstellung in souveränen Clouds ist für Behörden und deren Partner verfügbar.

Azure OpenAI

Azure OpenAI bietet Audiomodelle über die folgenden Schnittstellen:

Echtzeit-API für Sprachunterhaltungen mit geringer Latenz
Chat-Abschluss-API mit Audio für flexible Audiogenerierung und Transkription in einem einzelnen Modellaufruf
Audio-API über den /audio Endpunkt für dateibasierte Transkription, Übersetzung und TTS

Verfügbare Azure OpenAI-Audiomodelle

In der folgenden Tabelle sind die verfügbaren Azure OpenAI-Audiomodelle nach API und Funktion aufgeführt.

API	Fähigkeit	Modelle	Beschreibung
Echtzeit-API	Echtzeit-Sprachunterhaltung	`gpt-realtime` `gpt-realtime-mini` `gpt-4o-realtime-preview` `gpt-4o-mini-realtime-preview`	Unterhaltungen mit geringer Latenz, Spracheingabe und Sprachausgabe für Echtzeit-Sprachagenten, interaktive Assistenten und Streaming-Audio-Szenarien
API für Chatabschlusse	Audiogenerierung und Transkription	`gpt-4o-audio-preview` `gpt-4o-mini-audio-preview` `gpt-audio` `gpt-audio-mini`	Kombiniert Audioeingabe und -ausgabe mit sprachlicher Verarbeitung, Zusammenfassung oder Generierung in einem einzigen Modellaufruf.
Audio-API `/audio/transcriptions`	STT	`whisper` `gpt-4o-transcribe` `gpt-4o-mini-transcribe` `gpt-4o-transcribe-diarize`	- Dateibasierte Transkription von vorab aufgezeichneten Audiodaten - Das `gpt-4o-transcribe-diarize` Modell umfasst die Sprecherdiarisierung
Audio-API `/audio/translations`	Sprachübersetzung	`whisper`	Übersetzt gesprochenes Audio in unterstützten Sprachen in englischen Text.
Audio-API `/audio/speech`	TTS	`tts`, `tts-hdgpt-4o-mini-tts`	- Wandelt Text in natürlich klingende Sprache um - Das `tts-hd` Modell ist für Qualität optimiert und `gpt-4o-mini-tts` unterstützt einen promptgesteuerten Stil und Ton.

Wann sollte man Azure OpenAI Audio und wann Azure Speech verwenden?

In der folgenden Tabelle sind Aufgaben aufgeführt, die am besten für Azure OpenAI-Audiomodelle geeignet sind, im Vergleich zu Aufgaben, die am besten für Azure Speech geeignet sind.

Verwenden von Azure OpenAI-Audiomodellen	Verwenden von Azure Speech
Sie benötigen Echtzeit-Sprachunterhaltungen mit geringer Latenz mit einem generativen KI-Modell unter Verwendung der Realtime-API.	Sie benötigen eine hochvolumige Echtzeit- oder Batch-Sprachtranskription mit vorhersehbarer Genauigkeit und Kosten.
Sie benötigen eine allgemeine Transkription oder Übersetzung ohne benutzerdefiniertes Vokabular oder akustische Optimierung mithilfe von Flüster - oder GPT-4o-Audiomodellen.	Sie benötigen Sprecherdiarisierung, benutzerdefinierte Sprachmodelle oder benutzerdefiniertes Vokabular für domänenspezifische oder laute Audiodaten.
Ihre Arbeitsauslastung kombiniert Spracheingaben mit nachgeschalteter Begründung, Zusammenfassung oder Sprachverständnis in einem einzigen Modellaufruf.	Sie benötigen eine TTS-Ausgabe mit natürlichem Klang, indem Sie neurale Stimmen verwenden, einschließlich benutzerdefinierter Markenstimmen, die mit benutzerdefinierten Stimmen erstellt wurden.
Es wird ungeplante, flexible Audio-Verarbeitung benötigt, die von hinweisbasierter Steuerung oder TTS mit hinweisorientiertem Stil `gpt-4o-mini-tts` profitiert.	Sie benötigen eine lokale Bereitstellung oder Containerbereitstellung für Compliance-, Anforderungen an die Datenspeicherung oder souveräne Cloud-Anforderungen.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-24