Inzicht in de Azure Speech MCP-server

Voltooid

Aanbeveling

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

De Azure Speech MCP-server verbindt AI-agents met Azure Speech in Foundry Tools via het Model Context Protocol (MCP). Voordat u de Speech MCP-server zelf verkent, is het handig om te begrijpen wat MCP is en hoe agents externe hulpprogramma's kunnen gebruiken.

Wat is het Model Context Protocol?

Het MCP (Model Context Protocol) is een open protocol waarmee wordt gedefinieerd hoe AI-agents communiceren met externe hulpprogramma's, gegevensbronnen en services. MCP maakt gebruik van een client-serverarchitectuur met de volgende onderdelen:

  • Host: De toepassing die de agent uitvoert (zoals Microsoft Foundry of een aangepaste app).
  • Client: Een onderdeel binnen de host die verbindingen met MCP-servers beheert en communicatie afhandelt.
  • Server: Een programma dat hulpprogramma's, resources en prompts beschikbaar maakt die een agent kan detecteren en aanroepen.

Wanneer een agent verbinding maakt met een MCP-server, ontvangt deze een catalogus met beschikbare hulpprogramma's, samen met beschrijvingen van wat elk hulpprogramma doet. De agent kan vervolgens het juiste hulpprogramma kiezen op basis van de aanvraag van de gebruiker. Deze benadering wordt dynamische hulpprogrammadetectie genoemd. De agent heeft geen hardcoded kennis van elk hulpprogramma nodig. In plaats daarvan wordt tijdens runtime een query uitgevoerd op de MCP-server om erachter te komen wat er beschikbaar is.

Het belangrijkste voordeel van MCP voor AI-agents is flexibiliteit. Hulpprogramma's kunnen worden toegevoegd, bijgewerkt of verwijderd op de server zonder de agent zelf te wijzigen. De agent heeft altijd toegang tot de nieuwste hulpprogrammadefinities, waardoor MCP-oplossingen gemakkelijker te onderhouden en te schalen zijn.

Aanbeveling

Zie de module MCP Tools integreren met Azure AI Agents voor meer informatie over MCP-architectuur en het bouwen van aangepaste MCP-hulpprogramma-integraties.

Mogelijkheden van De MCP-server van Azure Speech

De Azure Speech MCP-server biedt twee kernfuncties voor spraak als hulpprogramma's die een MCP-compatibele agent kan aanroepen:

Vermogen Beschrijving
Spraak-naar-tekst (Herkennen) Converteert audiobestanden naar tekst met behulp van geavanceerde spraakherkenning. Ondersteunt WAV, MP3, OGG, FLAC, MP4, M4A, AAC en andere veelgebruikte audio-indelingen. Bevat opties voor taalselectie, zinsstarthints voor verbeterde nauwkeurigheid, filteren van grove taal en gedetailleerde of eenvoudige uitvoerformaten.
Tekst-naar-spraak (Synthesize) Converteert tekstinvoer naar natuurlijk klinkende audiobestanden met behulp van neurale tekst-naar-spraakstemmen. Ondersteunt meerdere talen en stemmen (bijvoorbeeld en-US-JennyNeural of en-GB-SoniaNeural) en genereert uitvoer in WAV-, MP3- of andere indelingen.

Wanneer u de Speech MCP-server verbindt met een agent, ontvangt de agent de beschikbare spraakhulpprogramma's en de bijbehorende beschrijvingen. Op basis van de prompt van de gebruiker bepaalt de agent welk hulpprogramma moet worden aangeroepen. Als een gebruiker bijvoorbeeld 'Dit audiobestand transcriberen' zegt, roept de agent het hulpprogramma spraak-naar-tekst aan. Als de gebruiker 'Spraak genereren op basis van deze tekst' zegt, roept de agent het hulpprogramma tekst-naar-spraak aan.

Hoe de agent hulpprogramma's selecteert

Het selectieproces van het hulpprogramma werkt als volgt:

  1. De gebruiker stuurt een prompt naar de agent.
  2. De agent analyseert de prompt en bepaalt welke spraaktaak moet worden uitgevoerd.
  3. De agent controleert de beschikbare MCP-hulpprogramma's en de bijbehorende beschrijvingen om de beste match te vinden.
  4. De agent roept het geselecteerde hulpprogramma aan via de MCP-server, waarbij de relevante invoer (url of tekst van het audiobestand) wordt doorgegeven.
  5. De MCP-server verwerkt de aanvraag met behulp van Azure Speech en retourneert de resultaten (getranscribeerde tekst of een koppeling naar een audiobestand).
  6. De agent geeft de resultaten weer voor de gebruiker in een reactie in natuurlijke taal.

De agent verwerkt selectie van hulpprogramma's autonoom, dus u hoeft geen routeringslogica te schrijven om te bepalen of een prompt spraak-naar-tekst of tekst-naar-spraak vereist.

Opslagvereisten

In tegenstelling tot alleen-tekst-MCP-hulpprogramma's werkt de Azure Speech MCP-server met audiobestanden, waarvoor een Azure Storage-account is vereist.

  • Tekst-naar-spraak: De Speech MCP-server slaat gegenereerde audiobestanden op in een Azure Blob Storage-container. Het antwoord van de agent bevat een koppeling naar het gegenereerde audiobestand.
  • Spraak-naar-tekst: de agent kan audiobestanden transcriberen vanuit een openbaar toegankelijke URL of vanuit een Azure Blob Storage-container die is geopend met een SAS-URL.

Wanneer u de Speech MCP-server verbindt met uw agent, geeft u een SAS-URL op voor een blobcontainer. De SAS-URL verleent de MCP-server toestemming voor het lezen en schrijven van bestanden in die container.

Belangrijk

Behandel SAS-URL's als geheimen. Gebruik de kortste praktische verlooptijd, beperk ze tot één container en sluit ze niet in in de broncode, agentprompts of chattranscripts.

Vereiste voorwaarden

Als u de Azure Speech MCP-server wilt gebruiken met een agent, hebt u het volgende nodig:

  • Een Azure-abonnement.
  • Een Foundry-resource en -project : u hebt de rol Inzender of Eigenaar voor de resourcegroep nodig. Uw Foundry-resource bevat spraakmogelijkheden.
  • Een Azure Storage-account met een blobcontainer voor het opslaan van audiobestanden.
  • Een SAS-URL voor de blobcontainer met lees-, schrijf-, add-, create- en lijstmachtigingen.

Beveiligingsoverwegingen

De Azure Speech MCP-server maakt gebruik van verificatie op basis van sleutels. Wanneer u de verbinding maakt, geeft u uw resourcesleutel en een SAS-URL voor de blobcontainer op. Volg deze beste praktijken:

  • Sla sleutels en SAS-URL's op in een beveiligd geheim archief en draai ze regelmatig.
  • Vermijd het rechtstreeks insluiten van sleutels of SAS-URL's in broncode, scripts of documentatie.
  • Gebruik de kortste praktische SAS-verlooptijd en beperk deze tot de minimaal vereiste resource.
  • Draai sleutels onmiddellijk om indien U vermoedt dat ze blootgesteld zijn.