Contenedores de conversión de voz en texto personalizados con Docker

El contenedor personalizado de transcripción de voz a texto convierte en texto las grabaciones de voz en tiempo real o las grabaciones de audio por lotes, ofreciendo resultados intermedios. Puede usar un modelo personalizado que haya creado en el Portal de voz personalizada. En este artículo, aprenderá a descargar, instalar y ejecutar un contenedor personalizado de conversión de voz a texto.

Para obtener más información sobre los requisitos previos, validando que un contenedor se está ejecutando, ejecutando varios contenedores en el mismo host y ejecutando contenedores desconectados, consulte Instalación y ejecución de contenedores de Voz con Docker.

Imágenes de contenedor

La imagen de contenedor personalizado de conversión de voz en texto para todas las versiones y configuraciones regionales compatibles se puede encontrar en el sindicato de Microsoft Container Registry (MCR). Reside en el azure-cognitive-services/speechservices/ repositorio y se denomina custom-speech-to-text.

El nombre completo de la imagen del contenedor es mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Anexe una versión específica o anexe :latest para obtener la versión más reciente.

Versión	Ruta
Más reciente	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.12.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.12.0-amd64`

Todas las etiquetas, salvo latest, tienen el formato siguiente y distinguen mayúsculas de minúsculas:

<major>.<minor>.<patch>-<platform>-<prerelease>

Nota

El locale y voice para los contenedores de voz a texto personalizados se determinan por el modelo personalizado ingerido por el contenedor.

Las etiquetas también están disponibles en formato JSON para su comodidad. El cuerpo incluye la ruta de acceso del contenedor y la lista de etiquetas. Las etiquetas no están ordenadas por versión, pero "latest" siempre se incluyen al final de la lista, como se muestra en este fragmento de código:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    <--redacted for brevity-->
    "4.0.0-amd64",
    "4.1.0-amd64",
    "4.10.0-amd64",
    "4.11.0-amd64",
    "4.12.0-amd64",
    "4.2.0-amd64",
    "4.3.0-amd64",
    "4.4.0-amd64",
    "4.5.0-amd64",
    "4.6.0-amd64",
    "4.7.0-amd64",
    "4.8.0-amd64",
    "4.9.0-amd64",
    "5.0.0-preview-amd64",
    "5.0.1-preview-amd64",
    "latest"
  ]
}

Obtención de la imagen de contenedor con el comando docker pull

Necesita los requisitos previos , incluido el hardware necesario. Consulte también la asignación recomendada de recursos para cada contenedor de voz.

Use el comando docker pull para descargar una imagen de contenedor de Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Nota

El locale y el voice para los contenedores de voz personalizados son determinados por el modelo personalizado ingerido por el contenedor.

Obtención del identificador del modelo

Para poder ejecutar el contenedor, debe conocer el identificador de modelo del modelo personalizado o un identificador de modelo base. Al ejecutar el contenedor, especifique uno de los identificadores de modelo que se van a descargar y usar.

Identificador de modelo personalizado
Id. de modelo base

El modelo personalizado debe entrenarse mediante Speech Studio. Para obtener información sobre cómo obtener el identificador del modelo, consulte ciclo de vida del modelo de voz personalizado.

Captura de pantalla que muestra la página de entrenamiento de voz personalizada.

Obtenga el ID de modelo que se va a usar como argumento para el parámetro ModelId de la orden docker run.

Captura de pantalla que muestra los detalles del modelo de voz personalizados.

Puede obtener la información del modelo base disponible mediante la opción BaseModelLocale={LOCALE}. Esta opción le proporciona una lista de los modelos base disponibles en esa ubicación específica de su cuenta de facturación.

Para obtener identificadores de modelo base, use el docker run comando . Por ejemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando comprueba la imagen del contenedor y devuelve los modelos base disponibles de la configuración regional de destino.

Nota

Aunque utiliza el comando docker run, el contenedor no se inicia para el servicio.

La salida proporciona una lista de modelos base con el entorno de información, el identificador de modelo y la fecha y hora de creación. Por ejemplo:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Visualización de la descarga del modelo

Antes de ejecutar el contenedor, puede obtener opcionalmente la información de los modelos de visualización disponibles y elegir descargar esos modelos en el contenedor de voz en texto para obtener una salida de pantalla final muy mejorada. La descarga del modelo de visualización está disponible con la versión 3.1.0 y posterior del contenedor personalizado de conversión de voz en texto.

Nota

Aunque usa el comando docker run, el contenedor no se inicia para el servicio.

Puede consultar o descargar cualquiera de estos tipos de modelo de presentación, o todos ellos: Rescoring (Rescore), Punctuation (Punct), resegmentation (Resegment) y wfstitn (Wfstitn). De lo contrario, puede usar la FullDisplay opción (con o sin otros tipos) para consultar o descargar todos los tipos de modelos de visualización.

Establezca el BaseModelLocale para consultar el modelo de pantalla más reciente disponible en el destino local. Si incluye varios tipos de modelo para mostrar, el comando devuelve los modelos de visualización disponibles más recientes para cada tipo. Por ejemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Configure el DisplayLocale para descargar el modelo de pantalla más reciente disponible en el destino local seleccionado. Al establecer DisplayLocale, también debe especificar FullDisplay o un subconjunto separado por espacios de modelos de visualización. El comando descarga el modelo de visualización más reciente disponible para cada tipo especificado. Por ejemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Establezca un parámetro de Id. de modelo para descargar un modelo de presentación específico: Rescoring (RescoreId), Punctuation (PunctId), resegmentation (ResegmentId) o wfstitn (WfstitnId). Esto es similar a cómo descargaría un modelo base a través del ModelId parámetro . Por ejemplo, para descargar un modelo de presentación rescoring, puede usar el comando siguiente con el parámetro RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Nota

Si establece más de una consulta o parámetro de descarga, el comando dará prioridad en este orden: BaseModelLocale, identificador de modelo y, a continuación DisplayLocale , (solo se aplica a los modelos de visualización).

Ejecute el contenedor con docker run

Use el comando docker run para ejecutar el contenedor para el servicio.

Transcripción de voz personalizada a texto
Conversión de voz personalizada a texto sin conexión

En la tabla siguiente se representan los distintos docker run parámetros y sus descripciones correspondientes:

Parámetro	Descripción
`{VOLUME_MOUNT}`	El montaje del volumen del equipo host, que Docker usa para conservar el modelo personalizado. Un ejemplo es, `c:\CustomSpeech`donde la unidad`c:\` se encuentra en la máquina host.
`{MODEL_ID}`	Id. del modelo base o de voz personalizado. Para obtener más información, consulte Obtención del identificador del modelo.
`{ENDPOINT_URI}`	El punto de conexión es necesario para la medición y la facturación. Para obtener más información, consulte argumentos de facturación.
`{API_KEY}`	Se requiere la clave de API. Para obtener más información, consulte argumentos de facturación.

Al ejecutar el contenedor de voz en texto personalizado, configure el puerto, la memoria y la CPU según los requisitos y recomendaciones del contenedor de texto personalizados de voz a texto.

Este es un comando de ejemplo docker run con valores de marcador de posición. Debe especificar los valores VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI y API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando:

Ejecuta un contenedor Conversión de voz a texto personalizada desde la imagen de contenedor.
Asigna 4 núcleos de CPU y 8 GB de memoria.
Carga el modelo de Conversión de voz a texto personalizada desde el montaje de entrada de volumen, por ejemplo, C:\CustomSpeech.
Expone el puerto TCP 5000 y asigna un pseudo-TTY para el contenedor.
Descarga el modelo dado el ModelId (si no se encuentra en el montaje de volumen).
Si el modelo personalizado se descargó anteriormente, ModelId se omite .
Quita automáticamente el contenedor después de que este salga. La imagen de contenedor sigue estando disponible en el equipo host.

Para obtener más información sobre docker run con contenedores de voz, consulte Instalación y ejecución de contenedores de voz con Docker.

Para ejecutar contenedores desconectados (no conectados a Internet), debe enviar este formulario de solicitud y esperar la aprobación. Para obtener más información sobre cómo aplicar y comprar un plan de compromiso para usar contenedores en entornos desconectados, consulte Uso de contenedores en entornos desconectados en la documentación de Foundry Tools.

Si está aprobado para ejecutar el contenedor desconectado de Internet, en el ejemplo siguiente se muestra el formato del comando docker run que se va a usar, con valores de marcador de posición. Sustituya estos valores de marcador de posición por sus propios valores.

Para preparar y configurar un contenedor de conversión de voz a texto personalizado desconectado, necesita dos recursos de voz separados:

Un recurso de Voz de Azure en un recurso de Foundry Tools normal que está configurado para usar un plan de tarifa "S0 - Standard" o un plan de tarifa de nivel de compromiso "Speech to Text (personalizado)". Esto se usa para entrenar, descargar y configurar los modelos de voz personalizados para usarlos en el contenedor.
Un recurso de Voz de Azure configurado para usar el plan de precios "Compromiso de DC0 (desconectado)". Esto se usa para descargar el archivo de licencia de contenedor desconectado necesario para ejecutar el contenedor en modo desconectado.

Siga estos pasos para descargar y ejecutar el contenedor en entornos desconectados.

Descargue un modelo para el contenedor desconectado. Para este paso, use un recurso de Voz para Azure configurado para usar un plan de tarifa "S0: Estándar" o un plan de precios de nivel de compromiso "Conversión de Speech to Text (personalizado)".
Descargue la licencia de contenedor desconectada. Para este paso, use un recurso de Voz de Azure que esté configurado para usar el plan de precios "compromiso de DC0 (desconectado)".
Ejecute el contenedor desconectado para el servicio. Para este paso, use un recurso de voz de Azure configurado para usar el plan de precios "DC0 Commitment (Disconnected)".

Descarga de un modelo para el contenedor desconectado

Para este paso, use un recurso de Voz para Azure configurado para usar un plan de tarifa "S0: Estándar" o un plan de precios de nivel de compromiso "Conversión de Speech to Text (personalizado)".

En la tabla siguiente se representan los distintos docker run parámetros y sus descripciones correspondientes:

Parámetro	Descripción
`{VOLUME_MOUNT}`	El montaje del volumen del equipo host, que Docker usa para conservar el modelo personalizado. Un ejemplo es `c:\CustomSpeech` donde la `c:\` unidad de disco se encuentra en el equipo host.
`{MODEL_ID}`	Id. del modelo base o de voz personalizado. Para obtener más información, consulte Obtención del identificador del modelo.
`{ENDPOINT_URI}`	El punto de conexión es necesario para la medición y la facturación. Para obtener más información, consulte argumentos de facturación.
`{API_KEY}`	Se requiere la clave de API. Para obtener más información, consulte argumentos de facturación.

Al ejecutar el contenedor de voz en texto personalizado, configure el puerto, la memoria y la CPU según los requisitos y recomendaciones del contenedor de texto personalizados de voz a texto.

Este es un comando de ejemplo docker run con valores de marcador de posición. Debe especificar los valores VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI y API_KEY.

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando:

Ejecuta un contenedor Conversión de voz a texto personalizada desde la imagen de contenedor.
Asigna 4 núcleos de CPU y 8 GB de memoria.
Carga el modelo de Conversión de voz a texto personalizada desde el montaje de entrada de volumen, por ejemplo, C:\CustomSpeech.
Expone el puerto TCP 5000 y asigna un pseudo-TTY para el contenedor.
Descarga el modelo dado el ModelId (si no se encuentra en el montaje de volumen).
Si el modelo personalizado se descargó anteriormente, ModelId se omite .
Quita automáticamente el contenedor después de que este salga. La imagen de contenedor sigue estando disponible en el equipo host.

Para obtener más información sobre docker run con contenedores de voz, consulte Instalación y ejecución de contenedores de voz con Docker.

Descarga de la licencia de contenedor desconectada

A continuación, descargue el archivo de licencia desconectado. El DownloadLicense=True parámetro del docker run comando descarga un archivo de licencia que permite que el contenedor de Docker se ejecute cuando no está conectado a Internet. También contiene una fecha de expiración, después de la cual el archivo de licencia no será válido para ejecutar el contenedor.

Solo puede usar un archivo de licencia con el contenedor y modelo adecuados para los que se le haya aprobado. Por ejemplo, no puede usar un archivo de licencia para un speech-to-text contenedor con un neural-text-to-speech contenedor.

Marcador de posición	Descripción
`{IMAGE}`	Imagen de contenedor que desea usar. Por ejemplo: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Ruta donde se descarga y monta la licencia. Por ejemplo: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Ruta de acceso donde se encuentra el modelo. Por ejemplo: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Punto de conexión para autenticar la solicitud de servicio. Puede encontrarlo en la página Key y endpoint del recurso, en el portal de Azure. Por ejemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	La clave del recurso de Voz. Puede encontrarlo en la página Key y endpoint del recurso, en el portal de Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Ubicación de la carpeta de licencias en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/license/directory`

Para este paso, use un recurso de Voz de Azure que esté configurado para usar el plan de precios "compromiso de DC0 (desconectado)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Ejecuta el contenedor desconectado

Una vez descargado el archivo de licencia, puede ejecutar el contenedor en un entorno desconectado. En el ejemplo siguiente se muestra el formato del docker run comando que se usa, con valores de marcador de posición. Sustituya estos valores de marcador de posición por sus propios valores.

Siempre que se ejecute el contenedor, el archivo de licencia debe montarse en el contenedor y la ubicación de la carpeta de licencias en el sistema de archivos local del contenedor debe especificarse con Mounts:License=. También se debe especificar un montaje de salida para que se puedan escribir registros de uso de facturación.

Marcador de posición	Descripción
`{IMAGE}`	Imagen de contenedor que desea usar. Por ejemplo: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	El tamaño adecuado de memoria para asignar a su contenedor. Por ejemplo: `4g`
`{NUMBER_CPUS}`	El número adecuado de CPUs que se van a asignar para su contenedor. Por ejemplo: `4`
`{LICENSE_MOUNT}`	Ruta de acceso donde se descarga la licencia y se monta. Por ejemplo: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	La ruta donde se ubica el modelo. Por ejemplo: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Ruta de salida para el registro. Por ejemplo: `/host/output:/path/to/output/directory` Para obtener más información, consulte registros de uso en la documentación de Foundry Tools.
`{ENDPOINT_URI}`	Punto de conexión para autenticar la solicitud de servicio. Puede encontrarlo en la página Key y endpoint del recurso, en el portal de Azure. Por ejemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	La clave del recurso de Voz. Puede encontrarlo en la página Key y endpoint del recurso, en el portal de Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Ubicación de la carpeta de licencias en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Ubicación de la carpeta de salida en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/output/directory`

Para este paso, use un recurso de Voz de Azure que esté configurado para usar el plan de precios "compromiso de DC0 (desconectado)".

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

El contenedor de voz en texto personalizado proporciona un directorio predeterminado para escribir el archivo de licencia y el registro de facturación en tiempo de ejecución. Los directorios predeterminados son /license y /output respectivamente.

Al montar estos directorios con el comando docker run -v en el contenedor, asegúrese de que el directorio del equipo local se establezca como propietario user:group nonroot:nonroot antes de ejecutar el contenedor.

A continuación se muestra un comando de ejemplo para establecer la propiedad del archivo o directorio.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Uso del contenedor

Los contenedores de voz proporcionan API de punto de conexión de consulta basadas en websocket a las que se accede a través del SDK de Voz y la CLI de Voz. De forma predeterminada, el SDK de Voz y la CLI de Voz usan el servicio de voz público. Para usar el contenedor, debe cambiar el método de inicialización.

Importante

Cuando use el servicio voz con contenedores, asegúrese de usar la autenticación de host. Si configura la clave y la región, las solicitudes irán al servicio público de reconocimiento del habla. Es posible que los resultados del servicio de voz no sean los esperados. Se producirá un error en las solicitudes de contenedores desconectados.