Azure Spracherkennung in Foundry Tools für die Übersicht über den Azure MCP-Server

Verwenden Sie den Azure MCP-Server, um Azure Speech in den Funktionen der Foundry Tools, wie Sprach-zu-Text (STT) und Text-zu-Sprache (TTS), mit Eingaben in natürlicher Sprache zu verwalten.

Hinweis

Tool-Parameter: Die Azure MCP-Servertools definieren Parameter für Daten, die sie zum Ausführen von Aufgaben benötigen. Einige dieser Parameter sind für jedes Tool spezifisch und werden unten dokumentiert. Andere Parameter sind global und werden von allen Tools gemeinsam genutzt. Weitere Informationen finden Sie unter Toolparameter.

Sprach-zu-Text: Erkennen

Erkennen von Sprache aus einer Audiodatei mithilfe von Speech. Dieser Befehl verwendet eine Audiodatei und konvertiert sie mithilfe erweiterter Spracherkennungsfunktionen in Text. Unterstützte Audioformate sind WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A und AAC. Komprimierte Formate erfordern die Installation von GStreamer auf dem System.

Beispiele für Prompts:

Basic-Konvertierung: "Konvertieren der Audiodatei ./meeting-recording.wav in Text mithilfe des Endpunkts https://myservice.cognitiveservices.azure.com/ und der Azure Sprachdienste."
With language detection: "Sprache von der Datei ./recording.mp3 mithilfe von Endpunkt https://myservice.cognitiveservices.azure.com/ mit Spracherkennung erkennen"
Mit Obszönitätenfilterung: "Sprache aus Datei ./interview.wav mit Endpunkt https://myservice.cognitiveservices.azure.com/ ohne Obszönitätenoption transkribieren"
Specify endpoint: "Umwandlung von Sprache zu Text aus der Datei ./audio.wav unter Verwendung des Endpunkts https://myservice.cognitiveservices.azure.com/"
Spanish language: "Transkribiere die Audiodatei ./session.wav mit Hilfe des Endpunkts https://myservice.cognitiveservices.azure.com/ in der Sprache es-ES"
Detailed output: "Sprache aus der Datei ./audio.wav in Text umwandeln mit dem Endpunkt https://myservice.cognitiveservices.azure.com/ im detaillierten Ausgabeformat"
Mit Phrasenhinweisen: "Spracherkennung von Datei ./notes.wav unter Verwendung des Endpunkts mit Phrasenhinweisen 'Azure' für bessere Genauigkeit"
Mehrere Phrasenhinweise: „Datei ./meeting.wav mithilfe von Endpoint https://myservice.cognitiveservices.azure.com/ mit Phrasenhinweisen transkribieren: 'Azure', 'kognitive Dienste', 'maschinelles Lernen'“
Kommagetrennte Hinweise: "Konvertiere Sprache aus der Datei ./podcast.mp3 in Text über Endpunkt https://myservice.cognitiveservices.azure.com/ mit folgenden Phrase-Hinweisen: 'Azure, kognitive Dienste, API'"
Rohfluchtausgabe: "Audio aus Datei ./audio.wav transkribieren mit Endpoint https://myservice.cognitiveservices.azure.com/ und Rohprofanitätsoption"

Parameter	Erforderlich oder optional	Description
Endpunkt	Erforderlich	Die Azure AI Services Endpunkt-URL (z. B. `https://your-service.cognitiveservices.azure.com/`).
File	Erforderlich	Pfad zur lokalen Audiodatei, die erkannt werden soll.
Sprache	Wahlfrei	Die Sprache für die Spracherkennung (z. B. `en-US`, `es-ES`). Der Standardwert ist `en-US`.
Phrasen	Wahlfrei	Phrasenhinweise zur Verbesserung der Erkennungsgenauigkeit. Kann mehrmals oder als kommagetrennte Werte angegeben werden.
Format	Wahlfrei	Ausgabeformat: `simple` oder `detailed`.
Profanität	Wahlfrei	Profanitätsfilter: `masked`, , `removed`oder `raw`. Der Standardwert ist `masked`.

Tool-Anmerkungshinweise:

Text-zu-Sprache: Synthetisieren

Konvertieren Sie Text zu Sprache mithilfe von Sprachsynthese. Dieser Befehl verwendet Texteingaben und generiert eine Audiodatei mit erweiterten neuralen Text-zu-Sprache-Funktionen.

Beispiele für Prompts:

Basic synthesis: "Konvertieren sie den Text "Hello, willkommen bei Foundry Tools" mithilfe von Endpunkt https://myservice.cognitiveservices.azure.com/ in Sprache und speichern in output.wav"
Mit benutzerdefinierter Stimme: "Synthesisiere 'Vielen Dank für die Nutzung unseres Dienstes' zu der Audiodatei greeting.mp3 unter Verwendung von meiner benutzerdefinierten Stimme my-custom-voice im Dienst https://myservice.cognitiveservices.azure.com/ und am Endpunkt "guid-endpoint"
Differente Sprache: "Generieren Sie die spanische Sprache für "Bienvenido a Azure", und speichern Sie welcome-es.wav mithilfe meines Sprachendpunkts https://myresource.cognitiveservices.azure.com/ in es-ES Sprache"

Parameter	Erforderlich oder optional	Description
Endpunkt	Erforderlich	Die Azure AI Services Endpunkt-URL (z. B. `https://your-service.cognitiveservices.azure.com/`).
Text	Erforderlich	Der Text, der in Sprache umgewandelt werden soll.
Ausgabedateipfad	Erforderlich	Pfad, in dem die synthetisierte Audiodatei gespeichert wird.
Sprache	Wahlfrei	Die Sprache für die Spracherkennung (z. B. `en-US`, `es-ES`). Der Standardwert ist `en-US`.
Voice	Wahlfrei	Die Stimme, die für die Sprachsynthese verwendet werden soll (z. B. `en-US-JennyNeural`). Wenn nicht angegeben, wird die Standardstimme für die Sprache verwendet.
Format	Wahlfrei	Ausgabeformat: `Riff24Khz16BitMonoPcm`, `Audio16Khz32KBitRateMonoMp3`, `Audio24Khz96KBitRateMonoMp3`, `Ogg16Khz16BitMonoOpus`, . `Raw16Khz16BitMonoPcm` Der Standardwert ist `Riff24Khz16BitMonoPcm`.
Endpunkt-ID	Wahlfrei	Die Endpunkt-ID eines benutzerdefinierten Sprachmodells für die Sprachsynthese.

Tool-Anmerkungshinweise:

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-11

Azure Spracherkennung in Foundry Tools für die Übersicht über den Azure MCP-Server

Sprach-zu-Text: Erkennen

Text-zu-Sprache: Synthetisieren

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen