Inicio rápido: Creación de subtítulos con conversión de voz en texto

Documentación de referencia | Package (PyPi) | Ejemplos adicionales en GitHub

En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.

Propina

Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.

Propina

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.

Requisitos previos

Configuración del entorno

El SDK de Voz para Python está disponible como un módulo Python Package Index (PyPI). El SDK de Voz para Python es compatible con Windows, Linux y macOS.

  1. Instale una versión de Python desde la versión 3.10 o posterior. En primer lugar, consulte la guía de instalación del SDK para obtener más requisitos.
  2. También debe instalar GStreamer para audio de entrada comprimido.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

  • Para establecer la SPEECH_KEY variable de entorno, reemplace su-clave por una de las claves de su recurso.
  • Para establecer la SPEECH_REGION variable de entorno, reemplace su región por una de las regiones del recurso.
  • Para establecer la variable de entorno ENDPOINT, reemplace your-endpoint por el punto de conexión real del recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.

Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Creación de subtítulos a partir de voz

Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.

  1. Descargue o copie scenarios/python/console/captioning/ archivos de ejemplo de GitHub en un directorio local.
  2. Abra un símbolo del sistema en el mismo directorio que captioning.py.
  3. Ejecute este comando para instalar el SDK de Voz:
    pip install azure-cognitiveservices-speech
    
  4. Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Asegúrese de que las rutas de acceso especificadas por --input y --output son válidas. De lo contrario, debe cambiar las rutas de acceso.

    Asegúrese de establecer las SPEECH_KEY variables de entorno y SPEECH_REGION como se describió anteriormente. De lo contrario, use --key y --region argumentos.

Comprobación de los resultados

Cuando usas la opción realTime en el ejemplo anterior, se incluyen los resultados parciales de los eventos Recognizing en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.

Uso y argumentos

Uso: python captioning.py --input <input file>

Entre las opciones de conexión se incluyen:

  • --key: la clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la --key opción .
  • --region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la --region opción . Ejemplos: westus, northeurope

Importante

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Entre las opciones de entrada se incluyen:

  • --input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono.
  • --format FORMAT: use el formato de audio comprimido. Válido solo con --file. Los valores válidos son alaw, any, flac, mp3, mulawy ogg_opus. El valor predeterminado es any. Para usar un wav archivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.

Entre las opciones de idioma se incluyen:

  • --language LANG: Especifica un idioma utilizando uno de los locales admitidos. Esto se usa al dividir los títulos en líneas. El valor predeterminado es en-US.

Entre las opciones de reconocimiento se incluyen:

  • --offline: genera resultados sin conexión. Invalida --realTime. El modo de salida predeterminado está sin conexión.
  • --realTime: genera resultados en tiempo real.

La salida en tiempo real incluye Recognizing resultados de eventos. La salida sin conexión predeterminada es Recognized solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.

Entre las opciones de precisión se incluyen:

Entre las opciones de salida se incluyen:

  • --help: Mostrar esta ayuda y detenerse
  • --output FILE: Subtítulos de salida en el destino especificado file. Esta marca es necesaria.
  • --srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título.
  • --maxLineLength LENGTH: Establecer el número máximo de caracteres por línea para un subtítulo en LENGTH. El mínimo es 20. El valor predeterminado es 37 (30 para chino).
  • --lines LINES: Establezca el número de líneas para un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2.
  • --delay MILLISECONDS: Cuántos milisegundos retrasar el mostrar de cada subtítulo, para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa la realTime marca . El mínimo es 0,0. El valor predeterminado es 1000.
  • --remainTime MILLISECONDS: Cuántos MILISEGUNDOS debe permanecer en pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000.
  • --quiet: Suprimir la salida de la consola, excepto los errores.
  • --profanity OPTION: Valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos del filtro de lenguaje soez.
  • --threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es 3. Esta opción solo es aplicable cuando se usa la realTime marca . Para obtener más información, consulte Obtener resultados parciales.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Documentación de referencia | Paquete (NuGet) | Muestras adicionales en GitHub

En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.

Propina

Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.

Propina

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.

Requisitos previos

Configuración del entorno

El SDK de Voz está disponible como un paquete NuGet e implementa .NET Standard 2.0. Instale el SDK de Voz más adelante en esta guía, pero primero compruebe la guía de instalación del SDK para obtener más requisitos.

También debe instalar GStreamer para audio de entrada comprimido.

Establecimiento de variables de entorno

Debe autenticar su aplicación para acceder a Herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

  • Para establecer la SPEECH_KEY variable de entorno, reemplace su-clave por una de las claves de su recurso.
  • Para establecer la SPEECH_REGION variable de entorno, reemplace su región por una de las regiones del recurso.
  • Para establecer la variable de entorno ENDPOINT, reemplace your-endpoint por el punto de conexión real del recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.

Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Creación de subtítulos a partir de voz

Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.

  1. Copie el scenarios/csharp/dotnetcore/captioning/ desde GitHub. Si tiene Git instalado, abra un símbolo del sistema y ejecute el comando git clone para descargar el repositorio de ejemplos del SDK de Voz.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Abra un terminal de comandos y, después, proceda a cambiar al directorio del proyecto.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Compile el proyecto con la CLI de .NET.
    dotnet build
    
  4. Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Asegúrese de que las rutas de acceso especificadas por --input y --output son válidas. De lo contrario, debe cambiar las rutas de acceso.

    Asegúrese de establecer las SPEECH_KEY variables de entorno y SPEECH_REGION como se describió anteriormente. De lo contrario, use los argumentos --key y --region.

Comprobación de los resultados

Cuando se usa la opción realTime en el ejemplo anterior, los resultados parciales de los eventos Recognizing se incluyen en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.

Uso y argumentos

Uso: captioning --input <input file>

Entre las opciones de conexión se incluyen:

  • --key: La clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la --key opción .
  • --region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la --region opción . Ejemplos: westus, northeurope

Importante

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Entre las opciones de entrada se incluyen:

  • --input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono.
  • --format FORMAT: use el formato de audio comprimido. Válido solo con --file. Los valores válidos son alaw, any, flac, mp3, mulawy ogg_opus. El valor predeterminado es any. Para usar un wav archivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.

Entre las opciones de idioma se incluyen:

  • --language LANG: Especifica un idioma utilizando uno de los locales admitidos. Esto se usa al dividir los títulos en líneas. El valor predeterminado es en-US.

Entre las opciones de reconocimiento se incluyen:

  • --offline: genera resultados sin conexión. Invalida --realTime. El modo de salida predeterminado está sin conexión.
  • --realTime: genera resultados en tiempo real.

La salida en tiempo real incluye Recognizing resultados de eventos. La salida sin conexión predeterminada es Recognized solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.

Entre las opciones de precisión se incluyen:

Entre las opciones de salida se incluyen:

  • --help: Mostrar esta ayuda y detenerse
  • --output FILE: Subtítulos de salida en el destino especificado file. Esta marca es necesaria.
  • --srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título.
  • --maxLineLength LENGTH: Establecer el número máximo de caracteres por línea para un subtítulo en LENGTH. El mínimo es 20. El valor predeterminado es 37 (30 para chino).
  • --lines LINES: Establezca el número de líneas para un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2.
  • --delay MILLISECONDS: Cuántos milisegundos retrasar el mostrar de cada subtítulo, para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa la realTime marca . El mínimo es 0,0. El valor predeterminado es 1000.
  • --remainTime MILLISECONDS: Cuántos MILISEGUNDOS debe permanecer en pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000.
  • --quiet: Suprima la salida de la consola, excepto los errores.
  • --profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia.
  • --threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es 3. Esta opción solo es aplicable cuando se usa la realTime marca . Para obtener más información, consulte Conceptos de obtención de resultados parciales.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Documentación de referencia | Paquete (npm) | Muestras adicionales en GitHub | Código fuente de la biblioteca

En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.

Propina

Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.

Propina

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.

Requisitos previos

Configuración del entorno

Para poder hacer cualquier cosa, debe instalar el SDK de Voz para JavaScript. Si solo desea que el nombre del paquete se instale, ejecute npm install microsoft-cognitiveservices-speech-sdk. Para obtener instrucciones de instalación guiadas, consulte la guía de instalación del SDK.

Creación de subtítulos a partir de voz

Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.

  1. Copie los scenarios/javascript/node/captioning/ de GitHub en el directorio del proyecto.

  2. Abra un símbolo del sistema en el mismo directorio que Captioning.js.

  3. Instale el SDK de Voz para JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:

    node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Reemplace por YourSpeechResoureKey la clave de recurso de Voz y reemplace por YourServiceRegion la región del recurso de Voz, como westus o northeurope. Asegúrese de que las rutas de acceso especificadas por --input y --output son válidas. De lo contrario, debe cambiar las rutas de acceso.

    Nota

    El SDK de Voz para JavaScript no admite audio de entrada comprimido. Debe usar un archivo WAV como se muestra en el ejemplo.

    Importante

    Recuerde quitar la clave del código cuando haya terminado y nunca publicarla públicamente. Para producción, use una forma segura de almacenar y acceder a sus credenciales, como Azure Key Vault. Consulte el artículo seguridad de Foundry Tools para obtener más información.

Comprobación de los resultados

El archivo de salida con subtítulos completos se escribe en caption.output.txt. Los resultados intermedios se muestran en la consola:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.

Uso y argumentos

Uso: node captioning.js --key <key> --region <region> --input <input file>

Entre las opciones de conexión se incluyen:

  • --key: la clave de recurso Foundry.
  • --region REGION: la región de recursos de Foundry. Ejemplos: westus, northeurope

Entre las opciones de entrada se incluyen:

  • --input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono.
  • --format FORMAT: use el formato de audio comprimido. Válido solo con --file. Los valores válidos son alaw, any, flac, mp3, mulawy ogg_opus. El valor predeterminado es any. Para usar un wav archivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.

Entre las opciones de idioma se incluyen:

  • --languages LANG1,LANG2: habilite la identificación del idioma para los idiomas especificados. Por ejemplo: en-US,ja-JP. Esta opción solo está disponible con las muestras de subtitulado de C++, C# y Python. Para obtener más información, consulte Identificación del idioma.

Entre las opciones de reconocimiento se incluyen:

  • --recognizing: resultados del evento de salida Recognizing . La salida predeterminada es Recognized solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.

Entre las opciones de precisión se incluyen:

Entre las opciones de salida se incluyen:

  • --help: Mostrar esta ayuda y detenerse
  • --output FILE: Subtítulos de salida en el destino especificado file. Esta marca es necesaria.
  • --srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título.
  • --quiet: Suprima la salida de la consola, excepto los errores.
  • --profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia.
  • --threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es 3. Para obtener más información, consulte Conceptos de obtención de resultados parciales.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Documentación de referencia | Ejemplos adicionales en GitHub

En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.

Propina

Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.

Propina

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.

Requisitos previos

Configuración del entorno

Para poder hacer cualquier cosa, debe instalar el SDK de Voz. El ejemplo de este inicio rápido funciona con el Compilación de Microsoft de OpenJDK 17

  1. Instale Apache Maven. A continuación, ejecute mvn -v para confirmar la instalación correcta.
  2. Cree un nuevo pom.xml archivo en la raíz del proyecto y copie lo siguiente en él:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.43.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instale el SDK de Voz y las dependencias.
    mvn clean dependency:copy-dependencies
    
  4. También debe instalar GStreamer para audio de entrada comprimido.

Establecimiento de variables de entorno

Debe autenticar la aplicación para acceder a Las herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

  • Para establecer la variable de entorno SPEECH_KEY, reemplace tu-clave por una de las claves de tu recurso.
  • Para establecer la SPEECH_REGION variable de entorno, reemplace su región por una de las regiones del recurso.
  • Para establecer la variable de entorno ENDPOINT, reemplace your-endpoint con el punto de conexión real de su recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.

Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Creación de subtítulos a partir de voz

Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.

  1. Copie los scenarios/java/jre/captioning/ de GitHub en el directorio del proyecto. El pom.xml archivo que creó en la configuración del entorno también debe estar en este directorio.
  2. Abra una terminal de comandos y ejecute este comando para compilar los archivos del proyecto.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Asegúrese de que las rutas de acceso especificadas por --input y --output son válidas. De lo contrario, debe cambiar las rutas de acceso.

    Asegúrese de establecer las SPEECH_KEY variables de entorno y SPEECH_REGION como se describió anteriormente. De lo contrario, use los argumentos --key y --region.

Comprobación de los resultados

Cuando se usa la opción realTime en el ejemplo anterior, los resultados parciales de los eventos Recognizing se incluyen en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.

Uso y argumentos

Uso: java -cp ".;target\dependency\*" Captioning --input <input file>

Entre las opciones de conexión se incluyen:

  • --key: La clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la --key opción .
  • --region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la --region opción . Ejemplos: westus, northeurope

Importante

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Entre las opciones de entrada se incluyen:

  • --input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono.
  • --format FORMAT: use el formato de audio comprimido. Válido solo con --file. Los valores válidos son alaw, any, flac, mp3, mulawy ogg_opus. El valor predeterminado es any. Para usar un wav archivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.

Entre las opciones de idioma se incluyen:

Entre las opciones de reconocimiento se incluyen:

  • --offline: genera resultados sin conexión. Sobrescribe --realTime. El modo de salida predeterminado está sin conexión.
  • --realTime: genera resultados en tiempo real.

La salida incluye resultados de eventos en tiempo real Recognizing. La salida sin conexión predeterminada es Recognized, solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.

Entre las opciones de precisión se incluyen:

Entre las opciones de salida se incluyen:

  • --help: Muestra esta ayuda y finaliza
  • --output FILE: Subtítulos de salida al file especificado. Esta marca es necesaria.
  • --srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título.
  • : Establezca el número máximo de caracteres por línea para un subtítulo en < LENGTH >. El mínimo es 20. El valor predeterminado es 37 (30 para chino).
  • --lines LINES: Establezca el número de líneas de un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2.
  • --delay MILLISECONDS: Cuántos MILISEGUNDOS hay que retrasar la presentación de cada subtítulo para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa la realTime marca . El mínimo es 0,0. El valor predeterminado es 1000.
  • --remainTime MILLISECONDS: durante cuántos MILISEGUNDOS debería permanecer en la pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000.
  • --quiet: Suprima la salida de la consola, excepto los errores.
  • --profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia.
  • --threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es 3. Esta opción solo es aplicable cuando se usa la realTime marca . Para obtener más información, consulte Conceptos de obtención de resultados parciales.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Documentación de referencia | Paquete (NuGet) | Muestras adicionales en GitHub

En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.

Propina

Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.

Propina

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.

Requisitos previos

Configuración del entorno

El SDK de Voz está disponible como un paquete NuGet e implementa .NET Standard 2.0. Puede instalar el SDK de Voz más adelante en esta guía, pero primero compruebe la guía de instalación del SDK para obtener más requisitos.

También debe instalar GStreamer para audio de entrada comprimido.

Establecimiento de variables de entorno

Debe autenticar la aplicación para acceder a Las herramientas de Foundry. En este artículo se muestra cómo usar variables de entorno para almacenar las credenciales. A continuación, puede acceder a las variables de entorno desde el código para autenticar la aplicación. Para producción, use una manera más segura de almacenar y acceder a sus credenciales.

Importante

Se recomienda la autenticación de Microsoft Entra ID con identidades administradas para los recursos de Azure para evitar almacenar credenciales en sus aplicaciones que se ejecutan en la nube.

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa claves de API, almacénelas de forma segura en Azure Key Vault, gire las claves periódicamente y restrinja el acceso a Azure Key Vault mediante el control de acceso basado en rol y las restricciones de acceso de red. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Para establecer las variables de entorno para la clave y región del recurso de Voz, abra una ventana de consola y siga las instrucciones del sistema operativo y el entorno de desarrollo.

  • Para establecer la variable de entorno SPEECH_KEY, reemplace tu-clave por una de las claves de tu recurso.
  • Para establecer la SPEECH_REGION variable de entorno, reemplace su región por una de las regiones del recurso.
  • Para establecer la variable de entorno ENDPOINT, reemplace your-endpoint con el punto de conexión real de su recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Si solo necesita acceder a las variables de entorno en la consola actual, puede establecer la variable de entorno con set en lugar de setx.

Después de agregar las variables de entorno, es posible que tenga que reiniciar los programas que necesiten leer las variables de entorno, incluida la ventana de la consola. Por ejemplo, si usa Visual Studio como editor, reinicie Visual Studio antes de ejecutar el ejemplo.

Creación de subtítulos a partir de voz

Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos con Visual Studio Community 2022 en Windows.

  1. Descargue o copie los archivos de ejemplo del directorio de GitHub en un directorio local.

  2. Abra el archivo de solución captioning.sln en Visual Studio Community 2022.

  3. Instale el SDK de Voz en el proyecto con el administrador de paquetes NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Abra Propiedades del Proyecto>>General. Establezca Configuración en All configurations. Establezca Estándar de lenguaje C++ en ISO C++17 Standard (/std:c++17).

  5. Abra Build>Administrador de configuración.

    • En una instalación de Windows de 64 bits, establezca Active solution platform en x64.
    • En una instalación de Windows de 32 bits, establezca Active solution platform en x86.
  6. Abra Proyecto>Propiedades>Depuración. Escriba los argumentos de la línea de comandos preferidos en Argumentos de comando. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Asegúrese de que las rutas de acceso especificadas por --input y --output son válidas. De lo contrario, debe cambiar las rutas de acceso.

    Asegúrese de establecer las SPEECH_KEY variables de entorno y SPEECH_REGION como se describió anteriormente. De lo contrario, use los argumentos --key y --region.

  7. Compile y ejecute la aplicación de consola.

Comprobación de los resultados

Cuando se usa la opción realTime en el ejemplo anterior, los resultados parciales de los eventos Recognizing se incluyen en la salida. En este ejemplo, solo el evento final Recognized incluye las comas. Las comas no son las únicas diferencias entre los eventos Recognizing y Recognized. Para obtener más información, consulte Obtención de resultados parciales.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Cuando se usa la --offline opción , los resultados son estables desde el evento final Recognized . Los resultados parciales no se incluyen en la salida:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.

Uso y argumentos

Uso: captioning --input <input file>

Entre las opciones de conexión se incluyen:

  • --key: la clave de recurso Foundry. Invalida la variable de entorno SPEECH_KEY. Debe establecer la variable de entorno (recomendada) o usar la --key opción .
  • --region REGION: la región de recursos de Foundry. Invalida la variable de entorno SPEECH_REGION. Debe establecer la variable de entorno (recomendada) o usar la --region opción . Ejemplos: westus, northeurope

Importante

Use las claves de API con precaución. No incluya la clave de API directamente en el código y nunca la publique públicamente. Si usa una clave de API, almacénela de forma segura en Azure Key Vault. Para obtener más información sobre el uso de claves de API de forma segura en las aplicaciones, consulte CLAVESAPI con Azure Key Vault.

Para obtener más información sobre la seguridad de los servicios de inteligencia artificial, consulte Authenticate requests to Servicios de Azure AI (Solicitudes de autenticación a Servicios de Azure AI.

Entre las opciones de entrada se incluyen:

  • --input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono.
  • --format FORMAT: use el formato de audio comprimido. Válido solo con --file. Los valores válidos son alaw, any, flac, mp3, mulawy ogg_opus. El valor predeterminado es any. Para usar un wav archivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.

Entre las opciones de idioma se incluyen:

Entre las opciones de reconocimiento se incluyen:

  • --offline: genera resultados sin conexión. Sobrescribe --realTime. El modo de salida predeterminado está sin conexión.
  • --realTime: genera resultados en tiempo real.

La salida incluye resultados de eventos en tiempo real Recognizing. La salida sin conexión predeterminada es Recognized, solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.

Entre las opciones de precisión se incluyen:

Entre las opciones de salida se incluyen:

  • --help: Muestra esta ayuda y finaliza
  • --output FILE: Subtítulos de salida al file especificado. Esta marca es necesaria.
  • --srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título.
  • : Establezca el número máximo de caracteres por línea para un subtítulo en < LENGTH >. El mínimo es 20. El valor predeterminado es 37 (30 para chino).
  • --lines LINES: Establezca el número de líneas de un subtítulo en LINES. El mínimo es 1. El valor predeterminado es 2.
  • --delay MILLISECONDS: Cuántos MILISEGUNDOS hay que retrasar la presentación de cada subtítulo para imitar una experiencia en tiempo real. Esta opción solo es aplicable cuando se usa la realTime marca . El mínimo es 0,0. El valor predeterminado es 1000.
  • --remainTime MILLISECONDS: durante cuántos MILISEGUNDOS debería permanecer en la pantalla un subtítulo si no se reemplaza por otro. El mínimo es 0,0. El valor predeterminado es 1000.
  • --quiet: Suprima la salida de la consola, excepto los errores.
  • --profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia.
  • --threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es 3. Esta opción solo es aplicable cuando se usa la realTime marca . Para obtener más información, consulte Conceptos de obtención de resultados parciales.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Documentación de referencia | Paquete (Go) | Muestras adicionales en GitHub

En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.

Propina

Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.

Propina

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.

Requisitos previos

Configuración del entorno

Compruebe si hay pasos de instalación específicos de la plataforma.

También debe instalar GStreamer para audio de entrada comprimido.

Creación de subtítulos a partir de voz

Siga estos pasos para compilar y ejecutar el ejemplo de código de inicio rápido de subtítulos.

  1. Descargue o copie el scenarios/go/captioning/ archivos de ejemplo de GitHub en un directorio local.

  2. Abra un símbolo del sistema en el mismo directorio que captioning.go.

  3. Ejecute los siguientes comandos para crear un archivo />

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Compile el módulo GO.

    go build
    
  5. Ejecute la aplicación con los argumentos de línea de comandos preferidos. Consulte el uso y los argumentos de las opciones disponibles. Este es un ejemplo:

    go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Reemplace por YourSpeechResoureKey la clave de recurso de Voz y reemplace por YourServiceRegion la región del recurso de Voz, como westus o northeurope. Asegúrese de que las rutas de acceso especificadas por --input y --output son válidas. De lo contrario, debe cambiar las rutas de acceso.

    Importante

    Recuerde quitar la clave del código cuando haya terminado y nunca publicarla públicamente. Para producción, use una forma segura de almacenar y acceder a sus credenciales, como Azure Key Vault. Consulte el artículo seguridad de Foundry Tools para obtener más información.

Comprobación de los resultados

El archivo de salida con subtítulos completos se escribe en caption.output.txt. Los resultados intermedios se muestran en la consola:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

El formato de salida del intervalo de tiempo de SRT (texto subRip) es hh:mm:ss,fff. Para obtener más información, consulte Formato de salida de título.

Uso y argumentos

Uso: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Entre las opciones de conexión se incluyen:

  • --key: la clave de recurso Foundry.
  • --region REGION: la región de recursos de Foundry. Ejemplos: westus, northeurope

Entre las opciones de entrada se incluyen:

  • --input FILE: Entrada de audio desde archivo. La entrada predeterminada es el micrófono.
  • --format FORMAT: use el formato de audio comprimido. Válido solo con --file. Los valores válidos son alaw, any, flac, mp3, mulawy ogg_opus. El valor predeterminado es any. Para usar un wav archivo, no especifique el formato. Esta opción no está disponible con el ejemplo de subtítulos de JavaScript. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.

Entre las opciones de idioma se incluyen:

  • --languages LANG1,LANG2: habilite la identificación del idioma para los idiomas especificados. Por ejemplo: en-US,ja-JP. Esta opción solo está disponible con las muestras de subtitulado de C++, C# y Python. Para obtener más información, consulte Identificación del idioma.

Entre las opciones de reconocimiento se incluyen:

  • --recognizing: resultados del evento de salida Recognizing . La salida predeterminada es Recognized solo los resultados del evento. Siempre se escriben en la consola, nunca en un archivo de salida. La --quiet opción invalida esto. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.

Entre las opciones de precisión se incluyen:

Entre las opciones de salida se incluyen:

  • --help: Mostrar esta ayuda y detenerse
  • --output FILE: Subtítulos de salida en el destino especificado file. Esta marca es necesaria.
  • --srt: Subtítulos de salida en formato SRT (SubRip Text). El formato predeterminado es WebVTT (pistas de texto de vídeo web). Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título.
  • --quiet: Suprima la salida de la consola, excepto los errores.
  • --profanity OPTION: valores válidos: raw, remove, mask. Para obtener más información, consulte Conceptos de filtro de blasfemia.
  • --threshold NUMBER: establezca el umbral de resultado parcial estable. El valor predeterminado es 3. Para obtener más información, consulte Conceptos de obtención de resultados parciales.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Documentación de referencia | Paquete (descargar) | Muestras adicionales en GitHub

Disponibilidad

El SDK de Voz para Objective-C admite la obtención de resultados de reconocimiento de voz para subtítulos, pero aún no hemos incluido una guía aquí. Seleccione otro lenguaje de programación para empezar a trabajar y obtener información sobre los conceptos, o consulte la referencia de Objective-C y ejemplos vinculados desde el principio de este artículo.

En este inicio rápido, ejecutará una aplicación de consola para crear subtítulos con conversión de voz en texto.

Propina

Pruebe Speech Studio y elija un clip de vídeo de ejemplo para ver los resultados de subtítulos procesados en tiempo real o sin conexión.

Propina

Pruebe el Azure Speech in Foundry Tools Toolkit para compilar y ejecutar fácilmente ejemplos de subtítulos en Visual Studio Code.

Requisitos previos

Configuración del entorno

Siga estos pasos y consulte el inicio rápido de la CLI de Voz para conocer otros requisitos de la plataforma.

  1. Ejecute el siguiente comando .NET CLI para instalar la CLI de Voz:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Ejecute los siguientes comandos para configurar la clave y la región del recurso de Voz. Reemplace SUBSCRIPTION-KEY con su clave de recurso de Voz y reemplace REGION con su región de recurso de Voz.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

También debe instalar GStreamer para audio de entrada comprimido.

Creación de subtítulos a partir de voz

Con la CLI de voz, puede generar tanto subtítulos SRT (SubRip Text) como WebVTT (Pistas de Texto de Vídeo Web) desde cualquier tipo de medio que contenga audio.

Para reconocer el audio de un archivo y generar subtítulos tanto en formato WebVtt (vtt) como en SRT (srt), siga estos pasos.

  1. Asegúrese de que tiene un archivo de entrada denominado caption.this.mp4 en la ruta de acceso.

  2. Ejecute el siguiente comando para generar subtítulos desde el archivo de vídeo:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    Los subtítulos de SRT y WebVTT se envían a la consola, como se muestra aquí:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Uso y argumentos

Estos son los detalles sobre los argumentos opcionales del comando anterior:

  • --file caption.this.mp4 --format any: Entrada de audio desde archivo. La entrada predeterminada es el micrófono. Para archivos de audio comprimidos como MP4, instale GStreamer y vea Cómo usar audio de entrada comprimido.
  • --output vtt file - y --output srt file -: genera subtítulos en formatos WebVTT y SRT en la salida estándar. Para obtener más información sobre los formatos de archivo de título de SRT y WebVTT, vea Formato de salida de título. Para obtener más información sobre el argumento --output, consulte las opciones de salida de Speech CLI.
  • @output.each.detailed: genera resultados de eventos con texto, desplazamiento y duración. Para obtener más información, consulte Obtención de resultados de reconocimiento de voz.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Puede solicitar que el servicio de voz devuelva menos eventos Recognizing que sean más precisos. En este ejemplo, el servicio de voz debe confirmar el reconocimiento de una palabra al menos cinco veces antes de devolverle los resultados parciales. Para obtener más información, consulte Conceptos de obtención de resultados parciales.
  • --profanity masked: Puede especificar si enmascarar, quitar o mostrar palabras soeces en los resultados del reconocimiento. Para obtener más información, consulte Conceptos de filtro de blasfemia.
  • --phrases "Constoso;Jessie;Rehaan": puede especificar una lista de frases que se van a reconocer, como Contoso, Jessie y Rehaan. Para obtener más información, vea Mejorar el reconocimiento con la lista de frases.

Limpieza de recursos

Puede usar el portal Azure o Azure interfaz de línea de comandos (CLI) para quitar el recurso de voz que creó.

Documentación de referencia | Paquete (descargar) | Muestras adicionales en GitHub

Disponibilidad

El SDK de Voz para Swift admite la obtención de resultados de reconocimiento de voz para subtítulos, pero aún no hemos incluido una guía aquí. Seleccione otro lenguaje de programación para empezar a trabajar y obtener información sobre los conceptos, o consulte la referencia de Swift y los ejemplos vinculados desde el principio de este artículo.

Pasos siguientes