Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Foundry Tools hilft Entwicklern und Organisationen, KI-basierte, fortgeschrittene, produktionsfähige Anwendungen zu erstellen, die sich an verantwortungsvolle KI-Praktiken orientieren, indem sie sofort einsatzbereite, vorgefertigte und anpassbare APIs und Modelle verwenden.
In diesem Artikel werden die Funktionen "Speech-to-Text" (STT) und Text-zu-Sprache (TTS) in Tools beschrieben. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, ttS-Stimmen mit natürlichem Sound erzeugen, gesprochene Audio übersetzen und Live-KI-Sprachunterhaltungen durchführen. Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Führen Sie Azure Speech in Foundry Tools überall aus, einschließlich in der Cloud oder am Rand in Containern.
Azure Speech bietet STT, TTS, Sprachübersetzung, Sprecheridentifikation und benutzerdefinierte Sprachfunktionen. Verwenden Sie Azure Speech für Echtzeit- oder Batchtranskription, natürlich klingende Sprachsynthese, mehrsprachige Audioübersetzung und markenspezifische benutzerdefinierte Stimmen.
Azure OpenAI in Foundry Models bietet Audiomodelle, einschließlich GPT-4o Realtime für Sprachunterhaltungen mit geringer Latenz, GPT-4o-Audiomodelle für die abschlussbasierte Audiogenerierung und Audio-API-Modelle für dateibasierte STT-Transkription, Sprachübersetzung und TTS-Synthese. Verwenden Sie Azure OpenAI für Szenarien, die Audio mit Sprachverständnis, Begründung oder Generierung in einem einzelnen Modellaufruf kombinieren.
Azure Speech-Dienst
Azure Speech ist ein Dienst in Tools, der STT, TTS, Sprachübersetzung und andere Funktionen bereitstellt. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, ttS-Stimmen mit natürlichem Sound erzeugen, gesprochene Audio übersetzen und Live-KI-Sprachunterhaltungen durchführen.
| Verwenden von Azure Speech für diese Aufgaben | Verwenden Sie Azure Speech nicht für diese Aufgaben. |
|---|---|
| Transkribieren oder übersetzen Sie gesprochene Sprache in Text in Echtzeit oder Batchverarbeitung. | Analysieren Sie Text, um Stimmungen zu erkennen oder Entitäten zu extrahieren. Verwenden Sie für diese Aufgaben azure Language in Foundry Tools. |
| Generieren Sie mithilfe von neuralen Stimmen natürlich klingende Sprache aus Text. | Moderate Inhalte zur Sicherheit. Verwenden Sie für die Inhaltsmoderation Content Safety im Foundry Control Plane. |
| Identifizieren Von Sprechern in einer Unterhaltung mithilfe der Sprachbiometrie. | Übersetzen Von Textdokumenten beim Beibehalten der Formatierung. Verwenden Sie für die Dokumentübersetzung Azure Translator in Foundry Tools. |
| Erstellen Sie benutzerdefinierte Stimmen, die für Ihre Marke oder Ihr Produkt einzigartig sind. |
Verfügbare Azure Speech-Features
Die folgende Tabelle enthält eine Liste der features, die in Azure Speech verfügbar sind.
| Funktion | Beschreibung |
|---|---|
| STT | Wandelt Audio in Text um. Wählen Sie aus Echtzeittranskription für Streamingaudio, schnelle Transkription für vorab aufgezeichnete Audiodateien oder Batchtranskription für die asynchrone Verarbeitung großer Audiomengen aus. |
| TTS | Wandelt Eingabetext in menschliche synthetisierte Sprache um, indem neurale Stimmen verwendet werden, die von tiefen neuralen Netzwerken unterstützt werden. Verwenden Sie Speech Synthesis Markup Language (SSML) zum Optimieren von Pitch, Aussprache, Sprachrate und Lautstärke. |
| TTS-Avatar | Wandelt Text in ein digitales Video eines fotorealistischen Menschen um, der mit einer natürlich klingenden Stimme spricht. Das Video kann asynchron oder in Echtzeit für synthetische sprechende Avatarvideos synthetisiert werden. |
| Sprachübersetzung | Ermöglicht die mehrsprachige Übersetzung von Sprache in Echtzeit in Ihre Anwendungen, Tools und Geräte. Verwenden Sie sie für die Sprach-zu-Sprache -Übersetzung (S2S) und STT-Übersetzung. |
| Sprachmodell-Spracherkennung (Vorschau) | Bietet verbesserte Qualität, tiefes Kontextverständnis, mehrsprachigen Support und Eingabeaufforderungsoptimierungsfunktionen. Unterstützt Transkriptions- und Übersetzungsaufgaben. |
| Sprachenerkennung | Identifiziert Sprachen, die in Audio gesprochen werden, indem sie mit einer Liste der unterstützten Sprachen verglichen werden. Verwenden Sie die Sprachidentifikation eigenständig, mit STT-Erkennung oder mit Sprachübersetzung. |
| Aussprachebewertung | Bewertet die Aussprache von Sprachaufnahmen und gibt den Sprechern Rückmeldung zur Genauigkeit und Flüssigkeit der gesprochenen Sprache. Sprachlerner können üben, sofortiges Feedback erhalten und ihre Aussprache verbessern. |
| Angepasste Sprache | Erstellen und trainieren Sie benutzerdefinierte Sprachmodelle mithilfe von akustischen, Sprach- und Aussprachedaten, wenn das Basismodell nicht für Audiodaten ausreicht, die Umgebungsgeräusche oder branchenspezifisches Jargon enthalten. |
| Benutzerdefinierte Stimme | Erstellen Sie eine benutzerdefinierte Stimme, die für Ihre Marke oder Ihr Produkt erkennbar und einzigartig ist. Benutzerdefinierte Stimmen sind privat und können einen Wettbewerbsvorteil bieten. |
Auswählen eines Azure-Sprachfeatures
Die folgende Tabelle enthält eine Liste der möglichen Anwendungsfälle für Azure Speech.
| Anwendungsfall | Funktion | Beschreibung |
|---|---|---|
| Untertitelung | STT | Synchronisieren Sie Beschriftungen mit Ihrem Eingabeaudio, wenden Sie Profanitätsfilter an, erhalten Sie Teilergebnisse, wenden Sie Anpassungen an, und identifizieren Sie gesprochene Sprachen für mehrsprachige Szenarien. |
| Erstellen von Audioinhalten | TTS | Machen Sie Interaktionen mit Chatbots und Sprachagenten natürlicher und ansprechender, konvertieren Sie digitale Texte wie E-Books in Hörbücher und verbessern Sie In-Car-Navigationssysteme. |
| Anrufcentertranskription | STT | Transkribieren Sie Anrufe in Echtzeit oder verarbeiten Sie eine Sammlung von Anrufen, schwärzen Sie persönliche Informationen und extrahieren Sie Einblicke wie Stimmungen, um das Kundenerlebnis zu verbessern. |
| Sprachenlernen | Aussprachebewertung | Geben Sie Aussprachebewertungs-Feedback für Sprachlerner, unterstützen Sie die Echtzeittranskription für Gespräche im Fernunterricht, und lesen Sie Unterrichtsmaterialien laut vor, durch die Verwendung neuronaler Stimmen. |
| Voice Live-API | TTS | Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Anwendungen und Erfahrungen. Die API bietet schnelle, zuverlässige Interaktionen zwischen einer menschlichen und einer Agentimplementierung. |
| Video-Avatarerstellung | TTS-Avatar | Erstellen Sie lebensnahe und qualitativ hochwertige synthetische sprechende Avatarvideos für verschiedene Echtzeit- und Batchanwendungen, während Sie verantwortungsvolle KI-Praktiken einhalten. |
Integrationsoptionen
Sie können Azure Speech mithilfe der folgenden Tools in Ihre Anwendungen integrieren:
Speech Studio bietet UI-basierte Tools zum Erstellen und Integrieren von Features aus Azure Speech mithilfe eines codefreien Ansatzes.
Speech SDK macht viele Azure Speech-Funktionen für mehrere Programmiersprachen und Plattformen verfügbar.
Speech CLI ist ein Befehlszeilentool, mit dem Sie Azure Speech ohne Schreiben von Code verwenden können.
REST-APIs ermöglichen Ihnen den Zugriff auf Azure Speech, wenn Sie das Speech SDK nicht verwenden können oder nicht verwenden sollten.
Bereitstellungsoptionen
Sie können Azure Speech in der Cloud oder lokal bereitstellen. Mithilfe von Containern können Sie den Dienst aus Compliance-, Sicherheits- oder anderen betrieblichen Gründen näher an Ihre Daten ausführen. Die Azure-Sprachbereitstellung in souveränen Clouds ist für Behörden und deren Partner verfügbar.
Azure OpenAI
Azure OpenAI bietet Audiomodelle über die folgenden Schnittstellen:
Echtzeit-API für Sprachunterhaltungen mit geringer Latenz
Chat-Abschluss-API mit Audio für flexible Audiogenerierung und Transkription in einem einzelnen Modellaufruf
Audio-API über den
/audioEndpunkt für dateibasierte Transkription, Übersetzung und TTS
Verfügbare Azure OpenAI-Audiomodelle
In der folgenden Tabelle sind die verfügbaren Azure OpenAI-Audiomodelle nach API und Funktion aufgeführt.
| API | Fähigkeit | Modelle | Beschreibung |
|---|---|---|---|
| Echtzeit-API | Echtzeit-Sprachunterhaltung |
gpt-realtime
gpt-realtime-mini
gpt-4o-realtime-preview
gpt-4o-mini-realtime-preview
|
Unterhaltungen mit geringer Latenz, Spracheingabe und Sprachausgabe für Echtzeit-Sprachagenten, interaktive Assistenten und Streaming-Audio-Szenarien |
| API für Chatabschlusse | Audiogenerierung und Transkription |
gpt-4o-audio-preview
gpt-4o-mini-audio-preview
gpt-audio
gpt-audio-mini
|
Kombiniert Audioeingabe und -ausgabe mit sprachlicher Verarbeitung, Zusammenfassung oder Generierung in einem einzigen Modellaufruf. |
Audio-API /audio/transcriptions |
STT |
whisper
gpt-4o-transcribe
gpt-4o-mini-transcribe
gpt-4o-transcribe-diarize
|
- Dateibasierte Transkription von vorab aufgezeichneten Audiodaten - Das gpt-4o-transcribe-diarize Modell umfasst die Sprecherdiarisierung |
Audio-API /audio/translations |
Sprachübersetzung | whisper |
Übersetzt gesprochenes Audio in unterstützten Sprachen in englischen Text. |
Audio-API /audio/speech |
TTS |
tts, tts-hdgpt-4o-mini-tts |
- Wandelt Text in natürlich klingende Sprache um - Das tts-hd Modell ist für Qualität optimiert und gpt-4o-mini-tts unterstützt einen promptgesteuerten Stil und Ton. |
Wann sollte man Azure OpenAI Audio und wann Azure Speech verwenden?
In der folgenden Tabelle sind Aufgaben aufgeführt, die am besten für Azure OpenAI-Audiomodelle geeignet sind, im Vergleich zu Aufgaben, die am besten für Azure Speech geeignet sind.
| Verwenden von Azure OpenAI-Audiomodellen | Verwenden von Azure Speech |
|---|---|
| Sie benötigen Echtzeit-Sprachunterhaltungen mit geringer Latenz mit einem generativen KI-Modell unter Verwendung der Realtime-API. | Sie benötigen eine hochvolumige Echtzeit- oder Batch-Sprachtranskription mit vorhersehbarer Genauigkeit und Kosten. |
| Sie benötigen eine allgemeine Transkription oder Übersetzung ohne benutzerdefiniertes Vokabular oder akustische Optimierung mithilfe von Flüster - oder GPT-4o-Audiomodellen. | Sie benötigen Sprecherdiarisierung, benutzerdefinierte Sprachmodelle oder benutzerdefiniertes Vokabular für domänenspezifische oder laute Audiodaten. |
| Ihre Arbeitsauslastung kombiniert Spracheingaben mit nachgeschalteter Begründung, Zusammenfassung oder Sprachverständnis in einem einzigen Modellaufruf. | Sie benötigen eine TTS-Ausgabe mit natürlichem Klang, indem Sie neurale Stimmen verwenden, einschließlich benutzerdefinierter Markenstimmen, die mit benutzerdefinierten Stimmen erstellt wurden. |
Es wird ungeplante, flexible Audio-Verarbeitung benötigt, die von hinweisbasierter Steuerung oder TTS mit hinweisorientiertem Stil gpt-4o-mini-tts profitiert. |
Sie benötigen eine lokale Bereitstellung oder Containerbereitstellung für Compliance-, Anforderungen an die Datenspeicherung oder souveräne Cloud-Anforderungen. |