Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Verwenden Sie den Azure MCP-Server, um Azure Speech in den Funktionen der Foundry Tools, wie Sprach-zu-Text (STT) und Text-zu-Sprache (TTS), mit Eingaben in natürlicher Sprache zu verwalten.
Hinweis
Tool-Parameter: Die Azure MCP-Servertools definieren Parameter für Daten, die sie zum Ausführen von Aufgaben benötigen. Einige dieser Parameter sind für jedes Tool spezifisch und werden unten dokumentiert. Andere Parameter sind global und werden von allen Tools gemeinsam genutzt. Weitere Informationen finden Sie unter Toolparameter.
Sprach-zu-Text: Erkennen
Erkennen von Sprache aus einer Audiodatei mithilfe von Speech. Dieser Befehl verwendet eine Audiodatei und konvertiert sie mithilfe erweiterter Spracherkennungsfunktionen in Text. Unterstützte Audioformate sind WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A und AAC. Komprimierte Formate erfordern die Installation von GStreamer auf dem System.
Beispiele für Prompts:
-
Basic-Konvertierung: "Konvertieren der Audiodatei ./meeting-recording.wav in Text mithilfe des Endpunkts
https://myservice.cognitiveservices.azure.com/und der Azure Sprachdienste." -
With language detection: "Sprache von der Datei ./recording.mp3 mithilfe von Endpunkt
https://myservice.cognitiveservices.azure.com/mit Spracherkennung erkennen" -
Mit Obszönitätenfilterung: "Sprache aus Datei ./interview.wav mit Endpunkt
https://myservice.cognitiveservices.azure.com/ohne Obszönitätenoption transkribieren" -
Specify endpoint: "Umwandlung von Sprache zu Text aus der Datei ./audio.wav unter Verwendung des Endpunkts
https://myservice.cognitiveservices.azure.com/" -
Spanish language: "Transkribiere die Audiodatei ./session.wav mit Hilfe des Endpunkts
https://myservice.cognitiveservices.azure.com/in der Sprache es-ES" -
Detailed output: "Sprache aus der Datei ./audio.wav in Text umwandeln mit dem Endpunkt
https://myservice.cognitiveservices.azure.com/im detaillierten Ausgabeformat" - Mit Phrasenhinweisen: "Spracherkennung von Datei ./notes.wav unter Verwendung des Endpunkts mit Phrasenhinweisen 'Azure' für bessere Genauigkeit"
-
Mehrere Phrasenhinweise: „Datei ./meeting.wav mithilfe von Endpoint
https://myservice.cognitiveservices.azure.com/mit Phrasenhinweisen transkribieren: 'Azure', 'kognitive Dienste', 'maschinelles Lernen'“ -
Kommagetrennte Hinweise: "Konvertiere Sprache aus der Datei ./podcast.mp3 in Text über Endpunkt
https://myservice.cognitiveservices.azure.com/mit folgenden Phrase-Hinweisen: 'Azure, kognitive Dienste, API'" -
Rohfluchtausgabe: "Audio aus Datei ./audio.wav transkribieren mit Endpoint
https://myservice.cognitiveservices.azure.com/und Rohprofanitätsoption"
| Parameter | Erforderlich oder optional | Description |
|---|---|---|
| Endpunkt | Erforderlich | Die Azure AI Services Endpunkt-URL (z. B. https://your-service.cognitiveservices.azure.com/). |
| File | Erforderlich | Pfad zur lokalen Audiodatei, die erkannt werden soll. |
| Sprache | Wahlfrei | Die Sprache für die Spracherkennung (z. B. en-US, es-ES). Der Standardwert ist en-US. |
| Phrasen | Wahlfrei | Phrasenhinweise zur Verbesserung der Erkennungsgenauigkeit. Kann mehrmals oder als kommagetrennte Werte angegeben werden. |
| Format | Wahlfrei | Ausgabeformat: simple oder detailed. |
| Profanität | Wahlfrei | Profanitätsfilter: masked, , removedoder raw. Der Standardwert ist masked. |
Destruktiv: ❌ | Idempotent: ✅ | Offene Welt: ❌ | Schreibgeschützt: ✅ | Vertraulich: ❌ | Lokal erforderlich: ✅
Text-zu-Sprache: Synthetisieren
Konvertieren Sie Text zu Sprache mithilfe von Sprachsynthese. Dieser Befehl verwendet Texteingaben und generiert eine Audiodatei mit erweiterten neuralen Text-zu-Sprache-Funktionen.
Beispiele für Prompts:
-
Basic synthesis: "Konvertieren sie den Text "Hello, willkommen bei Foundry Tools" mithilfe von Endpunkt
https://myservice.cognitiveservices.azure.com/in Sprache und speichern in output.wav" -
Mit benutzerdefinierter Stimme: "Synthesisiere 'Vielen Dank für die Nutzung unseres Dienstes' zu der Audiodatei greeting.mp3 unter Verwendung von meiner benutzerdefinierten Stimme my-custom-voice im Dienst
https://myservice.cognitiveservices.azure.com/und am Endpunkt "guid-endpoint" - Differente Sprache: "Generieren Sie die spanische Sprache für "Bienvenido a Azure", und speichern Sie welcome-es.wav mithilfe meines Sprachendpunkts https://myresource.cognitiveservices.azure.com/ in es-ES Sprache"
| Parameter | Erforderlich oder optional | Description |
|---|---|---|
| Endpunkt | Erforderlich | Die Azure AI Services Endpunkt-URL (z. B. https://your-service.cognitiveservices.azure.com/). |
| Text | Erforderlich | Der Text, der in Sprache umgewandelt werden soll. |
| Ausgabedateipfad | Erforderlich | Pfad, in dem die synthetisierte Audiodatei gespeichert wird. |
| Sprache | Wahlfrei | Die Sprache für die Spracherkennung (z. B. en-US, es-ES). Der Standardwert ist en-US. |
| Voice | Wahlfrei | Die Stimme, die für die Sprachsynthese verwendet werden soll (z. B. en-US-JennyNeural). Wenn nicht angegeben, wird die Standardstimme für die Sprache verwendet. |
| Format | Wahlfrei | Ausgabeformat: Riff24Khz16BitMonoPcm, Audio16Khz32KBitRateMonoMp3, Audio24Khz96KBitRateMonoMp3, Ogg16Khz16BitMonoOpus, . Raw16Khz16BitMonoPcm Der Standardwert ist Riff24Khz16BitMonoPcm. |
| Endpunkt-ID | Wahlfrei | Die Endpunkt-ID eines benutzerdefinierten Sprachmodells für die Sprachsynthese. |
Destruktiv: ❌ | Idempotent: ✅ | Offene Welt: ❌ | Schreibgeschützt: ❌ | Vertraulich: ❌ | Lokal erforderlich: ✅