Einleitung
KI-Sprachfunktionen ermöglichen es uns, Systeme mit Sprachanweisungen zu verwalten, Antworten von Computern für gesprochene Fragen zu erhalten, Untertitel aus Audio zu generieren und vieles mehr. Sprachbasierte Schnittstellen bieten eine natürlichere Möglichkeit, mit KI-Software zu interagieren. Die Fähigkeit, über gesprochene Sprache zu interagieren, kann die Barrierefreiheit und Inklusion von Anwendungen und Agents erhöhen.
Um diese Art der Interaktion zu ermöglichen, muss das KI-System mindestens zwei Features unterstützen:
- Spracherkennung: Die Möglichkeit, gesprochene Eingaben zu erkennen und zu interpretieren
- Sprachsynthese: Die Fähigkeit, gesprochene Ausgabe zu generieren
Beispiele für diese Funktionen sind:
Klinische Diktier- und Notizenaufnahme im Gesundheitswesen: Ärzte können Patientennotizen während oder nach Terminen laut sagen. Eine KI-Sprach-App wandelt die Audiodaten in präzisen medizinischen Text um, wodurch manuelle Eingaben reduziert und Zeit gespart wird.
Anruftranskription im Kundensupport: Contact Center transkribieren Kundenanrufe in Echtzeit, wodurch es einfacher ist, Unterhaltungen zu überprüfen, Probleme zu erkennen und Stimmungen zu analysieren.
Automatisierte Untertitel in Medien und Unterhaltung: Videoplattformen generieren Live- oder aufgezeichnete Untertitel für Shows und Streams, verbessern die Barrierefreiheit und unterstützen mehrsprachige Zielgruppen.
Sprachlern- und Aussprachefeedback im Bildungsbereich: Lern-Apps verwenden KI-Sprachfunktionen, um Kursteilnehmern zuzuhören und Aussprachefeedback bereitzustellen, Lernende dabei zu helfen, gesprochene Sprachkenntnisse zu üben und zu verbessern.
Sprachfähige Assistenten im Einzelhandel und E-Commerce: Virtuelle Einkaufsassistenten verwenden spracherkennung, um gesprochene Kundenanfragen und Text-zu-Sprache zu verstehen, um mit Produktinformationen oder Bestellstatus zu reagieren.
Azure Speech in Microsoft Foundry Tools bietet Sprach-zu-Text-, Text-zu-Sprache- und Sprachübersetzungsfunktionen durch Spracherkennung und Synthese. Sie können vorgefertigte und benutzerdefinierte Sprachdienstmodelle für eine Vielzahl von Aufgaben verwenden, von der Transkription von Audio in Text mit hoher Genauigkeit über die Identifizierung von Sprecher*innen in Gesprächen bis hin zur Erstellung benutzerdefinierter Stimmen und mehr. Erfahren Sie als Nächstes, wie Sie die Spracherkennung in eine Anwendung mit Azure Speech integrieren.
Hinweis
Wir erkennen, dass verschiedene Menschen gerne auf unterschiedliche Weise lernen. Sie können dieses Modul im videobasierten Format abschließen oder den Inhalt als Text und Bilder lesen. Der Text enthält größere Details als die Videos. In einigen Fällen sollten Sie also auf den Text als ergänzendes Material für die Videopräsentation verweisen.