Freigeben über


Azure Spracherkennung in Foundry Tools für die Übersicht über den Azure MCP-Server

Verwenden Sie den Azure MCP-Server, um Azure Speech in den Funktionen der Foundry Tools, wie Sprach-zu-Text (STT) und Text-zu-Sprache (TTS), mit Eingaben in natürlicher Sprache zu verwalten.

Hinweis

Tool-Parameter: Die Azure MCP-Servertools definieren Parameter für Daten, die sie zum Ausführen von Aufgaben benötigen. Einige dieser Parameter sind für jedes Tool spezifisch und werden unten dokumentiert. Andere Parameter sind global und werden von allen Tools gemeinsam genutzt. Weitere Informationen finden Sie unter Toolparameter.

Sprach-zu-Text: Erkennen

Erkennen von Sprache aus einer Audiodatei mithilfe von Speech. Dieser Befehl verwendet eine Audiodatei und konvertiert sie mithilfe erweiterter Spracherkennungsfunktionen in Text. Unterstützte Audioformate sind WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A und AAC. Komprimierte Formate erfordern die Installation von GStreamer auf dem System.

Beispiele für Prompts:

  • Basic-Konvertierung: "Konvertieren der Audiodatei ./meeting-recording.wav in Text mithilfe des Endpunkts https://myservice.cognitiveservices.azure.com/ und der Azure Sprachdienste."
  • With language detection: "Sprache von der Datei ./recording.mp3 mithilfe von Endpunkt https://myservice.cognitiveservices.azure.com/ mit Spracherkennung erkennen"
  • Mit Obszönitätenfilterung: "Sprache aus Datei ./interview.wav mit Endpunkt https://myservice.cognitiveservices.azure.com/ ohne Obszönitätenoption transkribieren"
  • Specify endpoint: "Umwandlung von Sprache zu Text aus der Datei ./audio.wav unter Verwendung des Endpunkts https://myservice.cognitiveservices.azure.com/"
  • Spanish language: "Transkribiere die Audiodatei ./session.wav mit Hilfe des Endpunkts https://myservice.cognitiveservices.azure.com/ in der Sprache es-ES"
  • Detailed output: "Sprache aus der Datei ./audio.wav in Text umwandeln mit dem Endpunkt https://myservice.cognitiveservices.azure.com/ im detaillierten Ausgabeformat"
  • Mit Phrasenhinweisen: "Spracherkennung von Datei ./notes.wav unter Verwendung des Endpunkts mit Phrasenhinweisen 'Azure' für bessere Genauigkeit"
  • Mehrere Phrasenhinweise: „Datei ./meeting.wav mithilfe von Endpoint https://myservice.cognitiveservices.azure.com/ mit Phrasenhinweisen transkribieren: 'Azure', 'kognitive Dienste', 'maschinelles Lernen'“
  • Kommagetrennte Hinweise: "Konvertiere Sprache aus der Datei ./podcast.mp3 in Text über Endpunkt https://myservice.cognitiveservices.azure.com/ mit folgenden Phrase-Hinweisen: 'Azure, kognitive Dienste, API'"
  • Rohfluchtausgabe: "Audio aus Datei ./audio.wav transkribieren mit Endpoint https://myservice.cognitiveservices.azure.com/ und Rohprofanitätsoption"
Parameter Erforderlich oder optional Description
Endpunkt Erforderlich Die Azure AI Services Endpunkt-URL (z. B. https://your-service.cognitiveservices.azure.com/).
File Erforderlich Pfad zur lokalen Audiodatei, die erkannt werden soll.
Sprache Wahlfrei Die Sprache für die Spracherkennung (z. B. en-US, es-ES). Der Standardwert ist en-US.
Phrasen Wahlfrei Phrasenhinweise zur Verbesserung der Erkennungsgenauigkeit. Kann mehrmals oder als kommagetrennte Werte angegeben werden.
Format Wahlfrei Ausgabeformat: simple oder detailed.
Profanität Wahlfrei Profanitätsfilter: masked, , removedoder raw. Der Standardwert ist masked.

Tool-Anmerkungshinweise:

Destruktiv: ❌ | Idempotent: ✅ | Offene Welt: ❌ | Schreibgeschützt: ✅ | Vertraulich: ❌ | Lokal erforderlich: ✅

Text-zu-Sprache: Synthetisieren

Konvertieren Sie Text zu Sprache mithilfe von Sprachsynthese. Dieser Befehl verwendet Texteingaben und generiert eine Audiodatei mit erweiterten neuralen Text-zu-Sprache-Funktionen.

Beispiele für Prompts:

  • Basic synthesis: "Konvertieren sie den Text "Hello, willkommen bei Foundry Tools" mithilfe von Endpunkt https://myservice.cognitiveservices.azure.com/ in Sprache und speichern in output.wav"
  • Mit benutzerdefinierter Stimme: "Synthesisiere 'Vielen Dank für die Nutzung unseres Dienstes' zu der Audiodatei greeting.mp3 unter Verwendung von meiner benutzerdefinierten Stimme my-custom-voice im Dienst https://myservice.cognitiveservices.azure.com/ und am Endpunkt "guid-endpoint"
  • Differente Sprache: "Generieren Sie die spanische Sprache für "Bienvenido a Azure", und speichern Sie welcome-es.wav mithilfe meines Sprachendpunkts https://myresource.cognitiveservices.azure.com/ in es-ES Sprache"
Parameter Erforderlich oder optional Description
Endpunkt Erforderlich Die Azure AI Services Endpunkt-URL (z. B. https://your-service.cognitiveservices.azure.com/).
Text Erforderlich Der Text, der in Sprache umgewandelt werden soll.
Ausgabedateipfad Erforderlich Pfad, in dem die synthetisierte Audiodatei gespeichert wird.
Sprache Wahlfrei Die Sprache für die Spracherkennung (z. B. en-US, es-ES). Der Standardwert ist en-US.
Voice Wahlfrei Die Stimme, die für die Sprachsynthese verwendet werden soll (z. B. en-US-JennyNeural). Wenn nicht angegeben, wird die Standardstimme für die Sprache verwendet.
Format Wahlfrei Ausgabeformat: Riff24Khz16BitMonoPcm, Audio16Khz32KBitRateMonoMp3, Audio24Khz96KBitRateMonoMp3, Ogg16Khz16BitMonoOpus, . Raw16Khz16BitMonoPcm Der Standardwert ist Riff24Khz16BitMonoPcm.
Endpunkt-ID Wahlfrei Die Endpunkt-ID eines benutzerdefinierten Sprachmodells für die Sprachsynthese.

Tool-Anmerkungshinweise:

Destruktiv: ❌ | Idempotent: ✅ | Offene Welt: ❌ | Schreibgeschützt: ❌ | Vertraulich: ❌ | Lokal erforderlich: ✅