Erstellen eines sprachfähigen Agents

4 Minuten

Hinweis

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

KI-Agents sind Softwareprogramme, die Informationen verstehen, Entscheidungen treffen und eigene Maßnahmen ergreifen können, um Benutzern dabei zu helfen, bestimmte Ziele zu erreichen. Ein gemeinsames Ziel für KI-Agents ist es, gesprochene Unterhaltungen in Echtzeit wie bei einem Menschen durchzuführen.

Sprach-zu-Sprache ist eine Funktion, mit der eine Anwendung gesprochenes Audio als Eingabe übernehmen und gesprochene Audio als Ausgabe erzeugen kann, ohne dass der Benutzer Text lesen oder eingeben muss. Die Benutzererfahrung fühlt sich wie eine natürliche Sprachunterhaltung an.

Sprach-zu-Sprache ermöglicht Systemen Folgendes:

Hören Sie einer Person zu, die spricht
Verstehen oder Transformieren, was gesagt wurde
Antworten mit synthetischer Sprache

Sprache-zu-Sprache kombiniert Sprache-zu-Text und Text-zu-Sprache zu einem einzigen Konversationserlebnis. Sprach-zu-Sprache wird als Pipeline von Sprach- und Language-Funktionen erstellt. Die Pipeline schließt Folgendes ab:

Sprach-zu-Text: Konvertieren der gesprochenen Audiodaten des Benutzers in Text.
Verarbeitung oder Begründung: Analysieren, Übersetzen und Zusammenfassen des Texts oder wird von einem KI-Agenten verwendet, um zu entscheiden, was als Nächstes gesagt werden soll.
Text-zu-Sprache: Konvertieren des Antworttexts wieder in gesprochenes Audio.

Zu den gängigen Sprach-zu-Sprach-Szenarien gehören:

Sprachassistenten und KI-Agents: Benutzer sprechen mit einem Agenten und hören gesprochene Antworten.
Sprachübersetzung: Ein Benutzer spricht in einer Sprache und hört die Antwort in einer anderen Sprache.
Freihändige Anwendungen: Navigationssysteme, Kioske oder industrielle Werkzeuge, bei denen die Eingabe nicht praktisch ist.
Barrierefreiheit: Sprachbasierte Interaktion für Benutzer, die Audioeingabe und -ausgabe bevorzugen oder erfordern.
Kundensupport-Bots: Anrufer sprechen natürlich und erhalten gesprochene Antworten.

Azure Sprache – Voice Live

Azure Speech umfasst einen VoiceLive Service wodurch das Erstellen von Unterhaltungs-Agents erleichtert wird. Mit der Voice Live-API können Anwendungen Sprachunterhaltungen in Echtzeit führen. Es ermöglicht einem Sprachagenten, einem Sprecher zuzuhören und schnell sowie natürlich mit gesprochener Sprache zu reagieren.

Anstatt viele separate Teile wie Sprache-zu-Text-, KI-Begründungen und Text-zu-Sprache zu erstellen und zu verbinden, kombiniert die Voice Live-API alles in einem Dienst. Die Voice Live-API macht es für Entwickler einfacher und schneller, sprachbasierte Erfahrungen zu erstellen.

Azure verwaltet VoiceLive vollständig, was bedeutet, dass Sie die Back-End-Systeme nicht selbst einrichten oder verwalten müssen. Wenn Sie Audio an VoiceLive senden, sendet es gesprochene Antworten zurück. VoiceLive kann auch visuelle Elemente zurückgeben, z. B. Avatare, und Aktionen auslösen, wenn erforderlich. Azure behandelt die Modelle und Infrastruktur hinter den Kulissen, sodass Sie sich auf die Entwicklung der Spracherfahrung konzentrieren können.

Sprach-zu-Sprach-Lösungen von Azure verwenden:

Azure Speech mit den Sprach-zu-Text- und Text-zu-Sprache-Funktionen.
Agents oder Anwendungslogik die Entscheidungen bei Antworten trifft.
Foundry Tools oder MCP-Server , die Sprache als aufrufbare Tools verfügbar machen können, sodass Agents SDKs oder APIs nicht direkt verwalten.

Sie können Voice Live in einem Spielplatz im Foundry-Portal erkunden. Der Foundry-Playground enthält einige vorkonfigurierte Sprachbeispiele, die Sie ausprobieren können, oder Sie können eine neue Lösung selbst erstellen. Wenn Sie eine Lösung erstellen, müssen Sie unbedingt ein generatives KI-Modell für Ihren Agent auswählen. Azure Speech Voice Live verwendet das generative KI-Modell neben eigenen akustischen Modellen, um ein Livegespräch mit dem Benutzer zu führen. Sie können viele Einstellungen im Playground konfigurieren. Sie können beispielsweise proaktives Engagement aktivieren, damit der Agent Unterhaltungen initiieren kann.

Sie können auch Voice-Modus für einen Microsoft Foundry-Agent im Playground aktivieren, der Azure Speech Voice Live in die Agentdefinition integriert. Dieser Ansatz bedeutet, dass die Sprachkonfiguration im Agent selbst gekapselt wird, wodurch der für die Verwendung erforderliche Clientcode reduziert wird.

Verwenden von Voice Live in einer Anwendung

Um eine benutzerdefinierte App zu entwickeln, die den Agent verwendet, müssen wir Code schreiben. Um eine Anwendung in Python zu erstellen, benötigen Sie das paket azure-ai-voicelive.

Das Paket kann im Visual Studio Code terminal installiert werden:

pip install azure-ai-voicelive

Hinweis

Um Ihre Voice Live-Anwendung auszuführen, müssen Sie außerdem pyaudio, python-dotenv und azure-identity installieren.

Sie finden Beispielcode für eine Sprach-zu-Sprache-Anwendung im Foundry-Portal. Der Beispielcode behandelt alle Logik, die zum Initiieren der Sitzung erforderlich ist, eine Verbindung mit Audiogeräten wie Mikrofonen und Lautsprechern herzustellen, die eingehenden und ausgehenden Audiodatenströme zu verarbeiten, Unterbrechungen zu verarbeiten usw. Der Beispielcode ist ein guter Ausgangspunkt für die Erstellung Ihrer eigenen Anwendung.

Sie können den Beispielcode in Ihren eigenen Code-Editor aufnehmen und die richtigen Pakete installieren. Wenn Sie die Anwendung ausführen, streamt ein Echtzeit-Sprachassistent Ihr Mikrofonaudio an Azure Voice Live, empfängt die gesprochene Audioantwort des Assistenten zurück und gibt es über Ihre Lautsprecher wieder.

Screenshot des Ergebnisses des VoiceLive Python script.

Voice Live in Azure Speech bietet eine effektive Möglichkeit, sprachfähige Unterhaltungs-Agents zu erstellen, die natürlich mit Benutzern interagieren. Probieren Sie als Nächstes Azure Sprache – Voice Live in Foundry selbst aus.

Feedback

War diese Seite hilfreich?