Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Documentación de referencia | Package (PyPi) | Ejemplos adicionales en GitHub
En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.
Propina
Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.
Propina
Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.
Requisitos previos
- Una suscripción Azure. Puede crear uno de forma gratuita.
- Crear un recurso Foundry para Speech en el portal de Azure.
- Obtenga la clave y la región del recurso de voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.
Configuración del entorno
El SDK de Voz para Python está disponible como un módulo Python Package Index (PyPI). El SDK de Voz para Python es compatible con Windows, Linux y macOS.
- Debe instalar el Microsoft Visual C++ Redistributable para Visual Studio 2015, 2017, 2019 y 2022 para su plataforma. La instalación de este paquete por primera vez podría requerir un reinicio.
- En Linux, debe usar la arquitectura de destino x64.
- Instale una versión de Python desde la versión 3.10 o posterior. En primer lugar, consulte la guía de instalación del SDK para obtener más requisitos.
- También debe instalar GStreamer para audio de entrada comprimido.
Establecimiento de variables de entorno
Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.
Importante
Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.
- Para establecer la
SPEECH_KEYvariable de entorno, reemplace su-clave por una de las claves de su recurso. - Para establecer la
SPEECH_REGIONvariable de entorno, reemplace su región por una de las regiones del recurso. - Para establecer la variable de entorno
ENDPOINT, reemplaceyour-endpointpor el punto de conexión real del recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.
Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.
Creación de subtítulos a partir de voz
Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.
- Descargue o copie scenarios/python/console/captioning/ archivos de ejemplo de GitHub en un directorio local.
- Abra un símbolo del sistema en el mismo directorio que
captioning.py. - Ejecute este comando para instalar el SDK de Voz:
pip install azure-cognitiveservices-speech - Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Asegúrese de que las rutas de acceso especificadas por
--inputy--outputson válidas. De lo contrario, debe cambiar las rutas de acceso.Asegúrese de establecer las
SPEECH_KEYvariables de entorno ySPEECH_REGIONcomo se describió anteriormente. De lo contrario, use--keyy--regionargumentos.
Comprobación de los resultados
Cuando usas la opción realTime en el ejemplo anterior, se incluyen los resultados parciales de los eventos Recognizing en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.
Uso y argumentos
Uso: python captioning.py --input <input file>
Entre las opciones de conexión se incluyen:
-
--key: la clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la--keyopción . -
--region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la--regionopción . Ejemplos:westus,northeurope
Importante
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Entre las opciones de entrada se incluyen:
-
--input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. -
--format FORMAT: use el formato de audio comprimido. Válido solo con--file. Los valores válidos sonalaw,any,flac,mp3,mulawyogg_opus. El valor predeterminado esany. Para usar unwavarchivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.
Entre las opciones de idioma se incluyen:
-
--language LANG: Especifica un idioma utilizando uno de los locales admitidos. Esto se usa al dividir los títulos en líneas. El valor predeterminado esen-US.
Entre las opciones de reconocimiento se incluyen:
-
--offline: genera resultados sin conexión. Invalida--realTime. El modo de salida predeterminado está sin conexión. -
--realTime: genera resultados en tiempo real.
La salida en tiempo real incluye Recognizing resultados de eventos. La salida sin conexión predeterminada es Recognized solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.
Entre las opciones de precisión se incluyen:
-
--phrases PHRASE1;PHRASE2: puede especificar una lista de frases que se van a reconocer, comoContoso;Jessie;Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.
Entre las opciones de salida se incluyen:
-
--help: Mostrar esta ayuda y detenerse -
--output FILE: Subtítulos de salida en el destino especificadofile. Esta marca es necesaria. -
--srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. -
--maxLineLength LENGTH: Establecer el número máximo de caracteres por línea para un subtítulo en LENGTH. El mínimo es 20. El valor predeterminado es 37 (30 para chino). -
--lines LINES: Establezca el número de líneas para un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2. -
--delay MILLISECONDS: Cuántos milisegundos retrasar el mostrar de cada subtítulo, para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa larealTimemarca . El mínimo es 0,0. El valor predeterminado es 1000. -
--remainTime MILLISECONDS: Cuántos MILISEGUNDOS debe permanecer en pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000. -
--quiet: Suprimir la salida de la consola, excepto los errores. -
--profanity OPTION: Valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos del filtro de lenguaje soez. -
--threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es3. Esta opción solo es aplicable cuando se usa larealTimemarca . Para obtener más información, consulte Obtener resultados parciales.
Limpieza de recursos
Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.
Documentación de referencia | Paquete (NuGet) | Muestras adicionales en GitHub
En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.
Propina
Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.
Propina
Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.
Requisitos previos
- Una suscripción Azure. Puede crear uno de forma gratuita.
- Crear un recurso Foundry para Speech en el portal de Azure.
- Obtenga la clave y la región del recurso de voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.
Configuración del entorno
El SDK de Voz está disponible como un paquete NuGet e implementa .NET Standard 2.0. Instale el SDK de Voz más adelante en esta guía, pero primero compruebe la guía de instalación del SDK para obtener más requisitos.
También debe instalar GStreamer para audio de entrada comprimido.
Establecimiento de variables de entorno
Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.
Importante
Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.
- Para establecer la
SPEECH_KEYvariable de entorno, reemplace su-clave por una de las claves de su recurso. - Para establecer la
SPEECH_REGIONvariable de entorno, reemplace su región por una de las regiones del recurso. - Para establecer la variable de entorno
ENDPOINT, reemplaceyour-endpointpor el punto de conexión real del recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.
Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.
Creación de subtítulos a partir de voz
Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.
- Copie el scenarios/csharp/dotnetcore/captioning/ desde GitHub. Si tiene Git instalado, abra un símbolo del sistema y ejecute el comando
git clonepara descargar el repositorio de ejemplos del SDK de Voz.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git - Abra un terminal de comandos y, después, proceda a cambiar al directorio del proyecto.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/ - Compile el proyecto con la CLI de .NET.
dotnet build - Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Asegúrese de que las rutas de acceso especificadas por
--inputy--outputson válidas. De lo contrario, debe cambiar las rutas de acceso.Asegúrese de establecer las
SPEECH_KEYvariables de entorno ySPEECH_REGIONcomo se describió anteriormente. De lo contrario, use los argumentos--keyy--region.
Comprobación de los resultados
Cuando se usa la opción realTime en el ejemplo anterior, los resultados parciales de los eventos Recognizing se incluyen en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.
Uso y argumentos
Uso: captioning --input <input file>
Entre las opciones de conexión se incluyen:
-
--key: La clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la--keyopción . -
--region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la--regionopción . Ejemplos:westus,northeurope
Importante
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Entre las opciones de entrada se incluyen:
-
--input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. -
--format FORMAT: use el formato de audio comprimido. Válido solo con--file. Los valores válidos sonalaw,any,flac,mp3,mulawyogg_opus. El valor predeterminado esany. Para usar unwavarchivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.
Entre las opciones de idioma se incluyen:
-
--language LANG: Especifica un idioma utilizando uno de los locales admitidos. Esto se usa al dividir los títulos en líneas. El valor predeterminado esen-US.
Entre las opciones de reconocimiento se incluyen:
-
--offline: genera resultados sin conexión. Invalida--realTime. El modo de salida predeterminado está sin conexión. -
--realTime: genera resultados en tiempo real.
La salida en tiempo real incluye Recognizing resultados de eventos. La salida sin conexión predeterminada es Recognized solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.
Entre las opciones de precisión se incluyen:
-
--phrases PHRASE1;PHRASE2: puede especificar una lista de frases que se van a reconocer, comoContoso;Jessie;Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.
Entre las opciones de salida se incluyen:
-
--help: Mostrar esta ayuda y detenerse -
--output FILE: Subtítulos de salida en el destino especificadofile. Esta marca es necesaria. -
--srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. -
--maxLineLength LENGTH: Establecer el número máximo de caracteres por línea para un subtítulo en LENGTH. El mínimo es 20. El valor predeterminado es 37 (30 para chino). -
--lines LINES: Establezca el número de líneas para un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2. -
--delay MILLISECONDS: Cuántos milisegundos retrasar el mostrar de cada subtítulo, para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa larealTimemarca . El mínimo es 0,0. El valor predeterminado es 1000. -
--remainTime MILLISECONDS: Cuántos MILISEGUNDOS debe permanecer en pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000. -
--quiet: Suprima la salida de la consola, excepto los errores. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia. -
--threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es3. Esta opción solo es aplicable cuando se usa larealTimemarca . Para obtener más información, consulte Conceptos de obtención de resultados parciales.
Limpieza de recursos
Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.
Documentación de referencia | Paquete (npm) | Muestras adicionales en GitHub | Código fuente de la biblioteca
En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.
Propina
Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.
Propina
Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.
Requisitos previos
- Una suscripción Azure. Puede crear uno de forma gratuita.
- Crear un recurso Foundry para Speech en el portal de Azure.
- Obtenga la clave y la región del recurso de voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.
Configuración del entorno
Para poder hacer cualquier cosa, debe instalar el SDK de Voz para JavaScript. Si solo desea que el nombre del paquete se instale, ejecute npm install microsoft-cognitiveservices-speech-sdk. Para obtener instrucciones de instalación guiadas, consulte la guía de instalación del SDK.
Creación de subtítulos a partir de voz
Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.
Copie los scenarios/javascript/node/captioning/ de GitHub en el directorio del proyecto.
Abra un símbolo del sistema en el mismo directorio que
Captioning.js.Instale el SDK de Voz para JavaScript:
npm install microsoft-cognitiveservices-speech-sdkEjecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Reemplace por
YourSpeechResoureKeyla clave de recurso de Voz y reemplace porYourServiceRegionla región del recurso de Voz, comowestusonortheurope. Asegúrese de que las rutas de acceso especificadas por--inputy--outputson válidas. De lo contrario, debe cambiar las rutas de acceso.Nota
El SDK de Voz para JavaScript no admite audio de entrada comprimido. Debe usar un archivo WAV como se muestra en el ejemplo.
Importante
Recuerde quitar la clave del código cuando haya terminado y nunca publicarla públicamente. Para producción, use una forma segura de almacenar y acceder a sus credenciales, como Azure Key Vault. Consulte el artículo seguridad de Foundry Tools para obtener más información.
Comprobación de los resultados
El archivo de salida con subtítulos completos se escribe en caption.output.txt. Los resultados intermedios se muestran en la consola:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.
Uso y argumentos
Uso: node captioning.js --key <key> --region <region> --input <input file>
Entre las opciones de conexión se incluyen:
-
--key: la clave de recurso Foundry. -
--region REGION: la región de recursos de Foundry. Ejemplos:westus,northeurope
Entre las opciones de entrada se incluyen:
-
--input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. -
--format FORMAT: use el formato de audio comprimido. Válido solo con--file. Los valores válidos sonalaw,any,flac,mp3,mulawyogg_opus. El valor predeterminado esany. Para usar unwavarchivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.
Entre las opciones de idioma se incluyen:
-
--languages LANG1,LANG2: habilite la identificación del idioma para los idiomas especificados. Por ejemplo:en-US,ja-JP. Esta opción solo está disponible con las muestras de subtitulado de C++, C# y Python. Para obtener más información, consulte Identificación del idioma.
Entre las opciones de reconocimiento se incluyen:
-
--recognizing: resultados del evento de salidaRecognizing. La salida predeterminada esRecognizedsolo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La--quietopción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.
Entre las opciones de precisión se incluyen:
-
--phrases PHRASE1;PHRASE2: puede especificar una lista de frases que se van a reconocer, comoContoso;Jessie;Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.
Entre las opciones de salida se incluyen:
-
--help: Mostrar esta ayuda y detenerse -
--output FILE: Subtítulos de salida en el destino especificadofile. Esta marca es necesaria. -
--srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. -
--quiet: Suprima la salida de la consola, excepto los errores. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia. -
--threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es3. Para obtener más información, consulte Conceptos de obtención de resultados parciales.
Limpieza de recursos
Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.
Documentación de referencia | Ejemplos adicionales en GitHub
En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.
Propina
Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.
Propina
Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.
Requisitos previos
- Una suscripción Azure. Puede crear uno de forma gratuita.
- Crear un recurso Foundry para Speech en el portal de Azure.
- Obtenga la clave y la región del recurso de voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.
Configuración del entorno
Para poder hacer cualquier cosa, debe instalar el SDK de Voz. El ejemplo de este inicio rápido funciona con el Compilación de Microsoft de OpenJDK 17
- Instale Apache Maven. A continuación, ejecute
mvn -vpara confirmar la instalación correcta. - Cree un nuevo
pom.xmlarchivo en la raíz del proyecto y copie lo siguiente en él:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project> - Instale el SDK de Voz y las dependencias.
mvn clean dependency:copy-dependencies - También debe instalar GStreamer para audio de entrada comprimido.
Establecimiento de variables de entorno
Debe autenticar la aplicación para acceder a Las herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.
Importante
Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.
- Para establecer la variable de entorno
SPEECH_KEY, reemplace tu-clave por una de las claves de tu recurso. - Para establecer la
SPEECH_REGIONvariable de entorno, reemplace su región por una de las regiones del recurso. - Para establecer la variable de entorno
ENDPOINT, reemplaceyour-endpointcon el punto de conexión real de su recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.
Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.
Creación de subtítulos a partir de voz
Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.
- Copie los scenarios/java/jre/captioning/ de GitHub en el directorio del proyecto. El
pom.xmlarchivo que creó en la configuración del entorno también debe estar en este directorio. - Abra una terminal de comandos y ejecute este comando para compilar los archivos del proyecto.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8 - Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Asegúrese de que las rutas de acceso especificadas por
--inputy--outputson válidas. De lo contrario, debe cambiar las rutas de acceso.Asegúrese de establecer las
SPEECH_KEYvariables de entorno ySPEECH_REGIONcomo se describió anteriormente. De lo contrario, use los argumentos--keyy--region.
Comprobación de los resultados
Cuando se usa la opción realTime en el ejemplo anterior, los resultados parciales de los eventos Recognizing se incluyen en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.
Uso y argumentos
Uso: java -cp ".;target\dependency\*" Captioning --input <input file>
Entre las opciones de conexión se incluyen:
-
--key: La clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la--keyopción . -
--region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la--regionopción . Ejemplos:westus,northeurope
Importante
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Entre las opciones de entrada se incluyen:
-
--input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. -
--format FORMAT: use el formato de audio comprimido. Válido solo con--file. Los valores válidos sonalaw,any,flac,mp3,mulawyogg_opus. El valor predeterminado esany. Para usar unwavarchivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.
Entre las opciones de idioma se incluyen:
-
--language LANG: especifique un idioma utilizando una de las localizaciones admitidas correspondientes. Esto se usa al dividir los títulos en líneas. El valor predeterminado esen-US.
Entre las opciones de reconocimiento se incluyen:
-
--offline: genera resultados sin conexión. Sobrescribe--realTime. El modo de salida predeterminado está sin conexión. -
--realTime: genera resultados en tiempo real.
La salida incluye resultados de eventos en tiempo real Recognizing. La salida sin conexión predeterminada es Recognized, solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.
Entre las opciones de precisión se incluyen:
-
--phrases PHRASE1;PHRASE2: puede especificar una lista de frases que se van a reconocer, comoContoso;Jessie;Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.
Entre las opciones de salida se incluyen:
-
--help: Muestra esta ayuda y finaliza -
--output FILE: Subtítulos de salida alfileespecificado. Esta marca es necesaria. -
--srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. : Establezca el número máximo de caracteres por línea para un subtítulo en < LENGTH >. El mínimo es 20. El valor predeterminado es 37 (30 para chino). -
--lines LINES: Establezca el número de líneas de un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2. -
--delay MILLISECONDS: Cuántos MILISEGUNDOS hay que retrasar la presentación de cada subtítulo para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa larealTimemarca . El mínimo es 0,0. El valor predeterminado es 1000. -
--remainTime MILLISECONDS: durante cuántos MILISEGUNDOS debería permanecer en la pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000. -
--quiet: Suprima la salida de la consola, excepto los errores. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia. -
--threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es3. Esta opción solo es aplicable cuando se usa larealTimemarca . Para obtener más información, consulte Conceptos de obtención de resultados parciales.
Limpieza de recursos
Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.
Documentación de referencia | Paquete (NuGet) | Muestras adicionales en GitHub
En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.
Propina
Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.
Propina
Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.
Requisitos previos
- Una suscripción Azure. Puede crear uno de forma gratuita.
- Crear un recurso Foundry para Speech en el portal de Azure.
- Obtenga la clave y la región del recurso de voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.
Configuración del entorno
El SDK de Voz está disponible como un paquete NuGet e implementa .NET Standard 2.0. Puede instalar el SDK de Voz más adelante en esta guía, pero primero compruebe la guía de instalación del SDK para obtener más requisitos.
También debe instalar GStreamer para audio de entrada comprimido.
Establecimiento de variables de entorno
Debe autenticar la aplicación para acceder a Las herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.
Importante
Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.
- Para establecer la variable de entorno
SPEECH_KEY, reemplace tu-clave por una de las claves de tu recurso. - Para establecer la
SPEECH_REGIONvariable de entorno, reemplace su región por una de las regiones del recurso. - Para establecer la variable de entorno
ENDPOINT, reemplaceyour-endpointcon el punto de conexión real de su recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.
Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.
Creación de subtítulos a partir de voz
Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos con Visual Studio Community 2022 en Windows.
Descargue o copie los archivos de ejemplo del directorio de GitHub en un directorio local.
Abra el archivo de solución
captioning.slnen Visual Studio Community 2022.Instale el SDK de Voz en el proyecto con el administrador de paquetes NuGet.
Install-Package Microsoft.CognitiveServices.SpeechAbra Propiedades del Proyecto>>General. Establezca Configuración en
All configurations. Establezca Estándar de lenguaje C++ enISO C++17 Standard (/std:c++17).Abra Build>Administrador de configuración.
- En una instalación de Windows de 64 bits, establezca Active solution platform en
x64. - En una instalación de Windows de 32 bits, establezca Active solution platform en
x86.
- En una instalación de Windows de 64 bits, establezca Active solution platform en
Abra Proyecto>Propiedades>Depuración. Escriba los argumentos de la línea de comandos preferidos en Argumentos de comando. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Asegúrese de que las rutas de acceso especificadas por
--inputy--outputson válidas. De lo contrario, debe cambiar las rutas de acceso.Asegúrese de establecer las
SPEECH_KEYvariables de entorno ySPEECH_REGIONcomo se describió anteriormente. De lo contrario, use los argumentos--keyy--region.Compile y ejecute la aplicación de consola.
Comprobación de los resultados
Cuando se usa la opción realTime en el ejemplo anterior, los resultados parciales de los eventos Recognizing se incluyen en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.
Uso y argumentos
Uso: captioning --input <input file>
Entre las opciones de conexión se incluyen:
-
--key: la clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la--keyopción . -
--region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la--regionopción . Ejemplos:westus,northeurope
Importante
Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.
Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte
Entre las opciones de entrada se incluyen:
-
--input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. -
--format FORMAT: use el formato de audio comprimido. Válido solo con--file. Los valores válidos sonalaw,any,flac,mp3,mulawyogg_opus. El valor predeterminado esany. Para usar unwavarchivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.
Entre las opciones de idioma se incluyen:
-
--language LANG: especifique un idioma utilizando una de las localizaciones admitidas correspondientes. Esto se usa al dividir los títulos en líneas. El valor predeterminado esen-US.
Entre las opciones de reconocimiento se incluyen:
-
--offline: genera resultados sin conexión. Sobrescribe--realTime. El modo de salida predeterminado está sin conexión. -
--realTime: genera resultados en tiempo real.
La salida incluye resultados de eventos en tiempo real Recognizing. La salida sin conexión predeterminada es Recognized, solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.
Entre las opciones de precisión se incluyen:
-
--phrases PHRASE1;PHRASE2: puede especificar una lista de frases que se van a reconocer, comoContoso;Jessie;Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.
Entre las opciones de salida se incluyen:
-
--help: Muestra esta ayuda y finaliza -
--output FILE: Subtítulos de salida alfileespecificado. Esta marca es necesaria. -
--srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. : Establezca el número máximo de caracteres por línea para un subtítulo en < LENGTH >. El mínimo es 20. El valor predeterminado es 37 (30 para chino). -
--lines LINES: Establezca el número de líneas de un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2. -
--delay MILLISECONDS: Cuántos MILISEGUNDOS hay que retrasar la presentación de cada subtítulo para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa larealTimemarca . El mínimo es 0,0. El valor predeterminado es 1000. -
--remainTime MILLISECONDS: durante cuántos MILISEGUNDOS debería permanecer en la pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000. -
--quiet: Suprima la salida de la consola, excepto los errores. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia. -
--threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es3. Esta opción solo es aplicable cuando se usa larealTimemarca . Para obtener más información, consulte Conceptos de obtención de resultados parciales.
Limpieza de recursos
Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.
Documentación de referencia | Paquete (Go) | Muestras adicionales en GitHub
En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.
Propina
Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.
Propina
Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.
Requisitos previos
- Una suscripción Azure. Puede crear uno de forma gratuita.
- Crear un recurso Foundry para Speech en el portal de Azure.
- Obtenga la clave y la región del recurso de voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.
Configuración del entorno
Compruebe si hay pasos de instalación específicos de la plataforma.
También debe instalar GStreamer para audio de entrada comprimido.
Creación de subtítulos a partir de voz
Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.
Descargue o copie el scenarios/go/captioning/ archivos de ejemplo de GitHub en un directorio local.
Abra un símbolo del sistema en el mismo directorio que
captioning.go.Ejecute los siguientes comandos para crear un archivo />
go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-goCompile el módulo GO.
go buildEjecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Reemplace por
YourSpeechResoureKeyla clave de recurso de Voz y reemplace porYourServiceRegionla región del recurso de Voz, comowestusonortheurope. Asegúrese de que las rutas de acceso especificadas por--inputy--outputson válidas. De lo contrario, debe cambiar las rutas de acceso.Importante
Recuerde quitar la clave del código cuando haya terminado y nunca publicarla públicamente. Para producción, use una forma segura de almacenar y acceder a sus credenciales, como Azure Key Vault. Consulte el artículo seguridad de Foundry Tools para obtener más información.
Comprobación de los resultados
El archivo de salida con subtítulos completos se escribe en caption.output.txt. Los resultados intermedios se muestran en la consola:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.
Uso y argumentos
Uso: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Entre las opciones de conexión se incluyen:
-
--key: la clave de recurso Foundry. -
--region REGION: la región de recursos de Foundry. Ejemplos:westus,northeurope
Entre las opciones de entrada se incluyen:
-
--input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. -
--format FORMAT: use el formato de audio comprimido. Válido solo con--file. Los valores válidos sonalaw,any,flac,mp3,mulawyogg_opus. El valor predeterminado esany. Para usar unwavarchivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.
Entre las opciones de idioma se incluyen:
-
--languages LANG1,LANG2: habilite la identificación del idioma para los idiomas especificados. Por ejemplo:en-US,ja-JP. Esta opción solo está disponible con las muestras de subtitulado de C++, C# y Python. Para obtener más información, consulte Identificación del idioma.
Entre las opciones de reconocimiento se incluyen:
-
--recognizing: resultados del evento de salidaRecognizing. La salida predeterminada esRecognizedsolo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La--quietopción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.
Entre las opciones de precisión se incluyen:
-
--phrases PHRASE1;PHRASE2: puede especificar una lista de frases que se van a reconocer, comoContoso;Jessie;Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.
Entre las opciones de salida se incluyen:
-
--help: Mostrar esta ayuda y detenerse -
--output FILE: Subtítulos de salida en el destino especificadofile. Esta marca es necesaria. -
--srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. -
--quiet: Suprima la salida de la consola, excepto los errores. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia. -
--threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es3. Para obtener más información, consulte Conceptos de obtención de resultados parciales.
Limpieza de recursos
Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.
Documentación de referencia | Paquete (descargar) | Muestras adicionales en GitHub
Disponibilidad
El SDK de Voz para Objective-C admite la obtención de resultados de reconocimiento de voz para subtítulos, pero aún no hemos incluido una guía aquí. Seleccione otro lenguaje de programación para empezar a trabajar y obtener información sobre los conceptos, o consulte la referencia de Objective-C y ejemplos vinculados desde el principio de este artículo.
En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.
Propina
Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.
Propina
Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.
Requisitos previos
- Una suscripción Azure. Puede crear uno de forma gratuita.
- Crear un recurso Foundry para Speech en el portal de Azure.
- Obtenga la clave y la región del recurso de voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves.
Configuración del entorno
Siga estos pasos y consulte el inicio rápido de la CLI de Voz para conocer otros requisitos de la plataforma.
Ejecute el siguiente comando .NET CLI para instalar la CLI de Voz:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLIEjecute los siguientes comandos para configurar la clave y la región del recurso de Voz. Reemplace
SUBSCRIPTION-KEYcon su clave de recurso de Voz y reemplaceREGIONcon su región de recurso de Voz.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
También debe instalar GStreamer para audio de entrada comprimido.
Creación de subtítulos a partir de voz
Con la CLI de voz, puede generar tanto subtítulos SRT (SubRip Text) como WebVTT (Pistas de Texto de Vídeo Web) desde cualquier tipo de medio que contenga audio.
Para reconocer el audio de un archivo y generar subtítulos tanto en formato WebVtt (vtt) como en SRT (srt), siga estos pasos.
Asegúrese de que tiene un archivo de entrada denominado
caption.this.mp4en la ruta de acceso.Ejecute el siguiente comando para generar subtítulos desde el archivo de vídeo:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"Los subtítulos de SRT y WebVTT se envían a la consola, como se muestra aquí:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Uso y argumentos
Estos son los detalles sobre los argumentos opcionales del comando anterior:
-
--file caption.this.mp4 --format any: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido. -
--output vtt file -y--output srt file -: genera subtítulos en formatos WebVTT y SRT en la salida estándar. Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. Para obtener más información sobre el argumento--output, consulte las opciones de salida de Speech CLI. -
@output.each.detailed: genera resultados de eventos con texto, desplazamiento y duración. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz. -
--property SpeechServiceResponse_StablePartialResultThreshold=5: Puede solicitar que el servicio de voz devuelva menos eventosRecognizingque sean más precisos. En este ejemplo, el servicio de voz debe confirmar el reconocimiento de una palabra al menos cinco veces antes de devolverle los resultados parciales. Para obtener más información, consulte Conceptos de obtención de resultados parciales. -
--profanity masked: Puede especificar si enmascarar, quitar o mostrar palabras soeces en los resultados del reconocimiento. Para obtener más información, consulte Conceptos de filtro de blasfemia. -
--phrases "Constoso;Jessie;Rehaan": puede especificar una lista de frases que se van a reconocer, como Contoso, Jessie y Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.
Limpieza de recursos
Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.
Documentación de referencia | Paquete (descargar) | Muestras adicionales en GitHub
Disponibilidad
El SDK de Voz para Swift admite la obtención de resultados de reconocimiento de voz para subtítulos, pero aún no hemos incluido una guía aquí. Seleccione otro lenguaje de programación para empezar a trabajar y obtener información sobre los conceptos, o consulte la referencia de Swift y los ejemplos vinculados desde el principio de este artículo.