Een voor spraak geschikte agent maken

4 minuten

Opmerking

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

AI-agents zijn softwareprogramma's die informatie kunnen begrijpen, beslissingen kunnen nemen en zelf acties kunnen ondernemen om gebruikers te helpen specifieke doelen te bereiken. Een gemeenschappelijk doel voor AI-agents is om realtime gesproken gesprekken uit te voeren, net zoals bij een mens.

Spraak-naar-spraak is een mogelijkheid waarmee een toepassing gesproken audio als invoer kan gebruiken en gesproken audio als uitvoer kan produceren, zonder dat de gebruiker tekst hoeft te lezen of te typen. De gebruikerservaring voelt als een natuurlijk spraakgesprek.

Met spraak-naar-spraak kunnen systemen:

Luister naar een persoon die spreekt
Begrijpen of transformeren wat er is gezegd
Reageren met synthetische spraak

Spraak-naar-spraak combineert spraak-naar-tekst en tekst-naar-spraak in één gesprekservaring. Spraak-naar-spraak is gebouwd als een pijplijn van spraak- en taalmogelijkheden. De pijplijn is voltooid:

Spraak-naar-tekst: de gesproken audio van de gebruiker converteren naar tekst.
Verwerking of redenering: analyseren, vertalen en samenvatten van de tekst, of gebruikt door een AI-agent om te bepalen wat er vervolgens moet worden gezegd.
Tekst naar spraak: de antwoordtekst weer converteren naar gesproken audio.

Veelvoorkomende spraak-naar-spraakscenario's zijn:

Spraakassistenten en AI-agents: gebruikers spreken met een agent en horen gesproken antwoorden.
Spraakomzetting: een gebruiker spreekt in één taal en hoort het antwoord in een andere taal.
Hands-free toepassingen: Navigatiesystemen, kiosken of industriële hulpmiddelen waarbij typen niet praktisch is.
Toegankelijkheid: interactie op basis van spraak voor gebruikers die liever audio-invoer en -uitvoer nodig hebben.
Bots voor klantondersteuning: bellers spreken natuurlijk en ontvangen gesproken antwoorden.

Azure Spraak - Voice Live

Azure Speech bevat een VoiceLive-service waarmee u eenvoudiger gespreksagents kunt bouwen. Met de Voice Live-API kunnen toepassingen realtime spraakgesprekken voeren. Hiermee kan een spraakagent snel en natuurlijk luisteren naar iemand die spreekt en reageert met gesproken audio.

In plaats van veel afzonderlijke stukken te bouwen en te verbinden, zoals spraak-naar-tekst, AI-redenering en tekst-naar-spraak, combineert de Voice Live-API alles in één service. De Voice Live-API maakt het eenvoudiger en sneller voor ontwikkelaars om spraakgebaseerde ervaringen te maken.

Azure volledig beheert VoiceLive, wat betekent dat u de back-endsystemen niet zelf hoeft in te stellen of te onderhouden. Wanneer u audio naar VoiceLive verzendt, worden gesproken antwoorden teruggestuurd. VoiceLive kan ook visuals leveren, zoals avatars, en acties starten wanneer dat nodig is. Azure de modellen en infrastructuur achter de schermen afhandelt, zodat u zich kunt richten op het bouwen van de spraakervaring.

Azure spraak-naar-spraak-oplossingen maken gebruik van:

Azure Speech die de spraak-naar-tekst- en tekst-naar-spraak-mogelijkheden biedt.
Agents ofwel toepassingslogica waarmee beslissingen worden genomen over antwoorden.
Foundry Tools of MCP-servers die spraak beschikbaar kunnen maken als aanroepbare hulpprogramma's, zodat agenten geen SDK's of API's rechtstreeks beheren.

U kunt Voice Live verkennen in een speeltuin in Foundry Portal. De Foundry-speeltuin bevat enkele vooraf geconfigureerde spraakvoorbeelden die u kunt uitproberen of u kunt zelf een nieuwe oplossing maken. Wanneer u een oplossing maakt, moet u een generatief AI-model kiezen dat uw agent moet gebruiken. Azure Speech Voice Live maakt gebruik van het generatieve AI-model samen met zijn eigen akoestische modellen om een live gesprek met de gebruiker te voeren. U kunt veel instellingen configureren in de speeltuin. U kunt bijvoorbeeld proactieve betrokkenheid inschakelen, zodat de agent gesprekken kan starten.

U kunt ook Voice-modus inschakelen voor een Microsoft Foundry-agent in de speeltuin, waarmee Azure Speech Voice Live wordt geïntegreerd in de agentdefinitie. Deze benadering betekent dat de spraakconfiguratie is ingekapseld in de agent zelf, waardoor de clientcode die nodig is om deze te gebruiken, wordt verminderd.

Voice Live gebruiken in een toepassing

Als u een aangepaste app wilt ontwikkelen die gebruikmaakt van de agent, moeten we code schrijven. Als u een toepassing in Python wilt maken, hebt u het pakket azure-ai-voicelive nodig.

Het pakket kan worden geïnstalleerd in de Visual Studio Code terminal met behulp van:

pip install azure-ai-voicelive

Opmerking

U moet ook installeren pyaudio, python-dotenven azure-identity om uw Voice Live-toepassing uit te voeren.

U vindt voorbeeldcode voor een spraak-naar-spraaktoepassing in de Foundry-portal. De voorbeeldcode verwerkt alle logica die nodig is om de sessie te starten, verbinding te maken met audioapparaten zoals microfoons en luidsprekers, de binnenkomende en uitgaande audiostreams te verwerken, onderbrekingen te verwerken, enzovoort. De voorbeeldcode is een goed uitgangspunt voor het bouwen van uw eigen toepassing.

U kunt de voorbeeldcode in uw eigen code-editor opnemen en de juiste pakketten installeren. Wanneer u de toepassing uitvoert, streamt een realtime spraakassistent uw microfoonaudio naar Azure Voice Live, ontvangt de gesproken audioreactie van de assistent en speelt deze af via uw luidsprekers.

Schermopname van het resultaat van het script VoiceLive Python script.

Voice Live in Azure Speech biedt een effectieve manier om spraakgevoelige gespreksagents te bouwen die op natuurlijke wijze met gebruikers communiceren. Probeer vervolgens zelf Azure Speech - Voice Live in Foundry.

Feedback

Is deze pagina nuttig?