Conversione vocale in testo personalizzata con container Docker

Il contenitore personalizzato di conversione da voce a testo trascrive il parlato in tempo reale o le registrazioni audio batch con risultati intermedi. È possibile usare un modello personalizzato creato nel portale di riconoscimento vocale personalizzato. Questo articolo illustra come scaricare, installare ed eseguire una voce personalizzata in un contenitore di testo.

Per altre informazioni sui prerequisiti, convalidare l'esecuzione di un contenitore, l'esecuzione di più contenitori nello stesso host e l'esecuzione di contenitori disconnessi, vedere Installare ed eseguire contenitori voce con Docker.

Immagini del contenitore

L'immagine del contenitore di riconoscimento vocale personalizzata per tutte le versioni e le impostazioni locali supportate è disponibile nel registro dei container di Microsoft (MCR). Si trova all'interno del azure-cognitive-services/speechservices/ repository ed è denominato custom-speech-to-text.

Il nome completo dell'immagine del contenitore è, mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Aggiungere una versione specifica o accodare :latest per ottenere la versione più recente.

Versione	Percorso
Più recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.12.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.12.0-amd64`

Tutti i tag, ad eccezione di latest, sono nel formato seguente e fanno distinzione tra maiuscole e minuscole:

<major>.<minor>.<patch>-<platform>-<prerelease>

Nota

I locale e voice per i contenitori di trascrizione vocale personalizzata sono determinati dal modello personalizzato ingestito dal contenitore.

I tag sono disponibili anche in formato JSON per praticità. Il corpo include il percorso del contenitore e l'elenco dei tag. I tag non vengono ordinati in base alla versione, ma "latest" vengono sempre inclusi alla fine dell'elenco, come illustrato in questo frammento di codice:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    <--redacted for brevity-->
    "4.0.0-amd64",
    "4.1.0-amd64",
    "4.10.0-amd64",
    "4.11.0-amd64",
    "4.12.0-amd64",
    "4.2.0-amd64",
    "4.3.0-amd64",
    "4.4.0-amd64",
    "4.5.0-amd64",
    "4.6.0-amd64",
    "4.7.0-amd64",
    "4.8.0-amd64",
    "4.9.0-amd64",
    "5.0.0-preview-amd64",
    "5.0.1-preview-amd64",
    "latest"
  ]
}

Ottieni l'immagine del contenitore con Docker pull

Sono necessari i prerequisiti , incluso l'hardware richiesto. Si veda anche l'allocazione consigliata delle risorse per ogni contenitore della voce.

Usare il comando pull docker per scaricare un'immagine del contenitore da Microsoft Registro Container:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Nota

La determinazione di locale e voice per i contenitori vocali personalizzati è basata sul modello personalizzato utilizzato dal contenitore.

Ottieni l'ID modello

Prima di poter eseguire il contenitore, è necessario conoscere l'ID modello del modello personalizzato o un ID modello di base. Quando esegui il contenitore, specifica uno degli ID modello da scaricare e utilizzare.

ID modello personalizzato
ID modello di base

Il training del modello personalizzato deve essere eseguito tramite Speech Studio. Per informazioni su come ottenere l'ID modello, vedere Ciclo di vita del modello di riconoscimento vocale personalizzato.

Screenshot che mostra la pagina di addestramento vocale personalizzata.

Ottenere l'ID modello da usare come argomento per il ModelId parametro del docker run comando.

Screenshot che mostra i dettagli del modello di riconoscimento vocale personalizzato.

È possibile ottenere le informazioni sul modello di base disponibili usando l'opzione BaseModelLocale={LOCALE}. Questa opzione fornisce un elenco dei modelli di base disponibili su quella località nel tuo account di fatturazione.

Per ottenere gli ID modello di base, usare il docker run comando . Per esempio:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando controlla l'immagine del container e restituisce i modelli di base disponibili della localizzazione di destinazione.

Nota

Anche se si usa il docker run comando , il contenitore non viene avviato per il servizio.

L'output fornisce un elenco di modelli di base con le informazioni localizzate, l'ID modello e la data e ora di creazione. Per esempio:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Visualizzare il download del modello

Prima di eseguire il contenitore, è possibile ottenere facoltativamente le informazioni sui modelli di visualizzazione disponibili e scegliere di scaricare tali modelli nel contenitore di testo per ottenere un output finale di visualizzazione estremamente migliorato. Il download del modello di visualizzazione è disponibile con il contenitore personalizzato di riconoscimento vocale versione 3.1.0 e successive.

Nota

Anche se si usa il docker run comando , il contenitore non viene avviato per il servizio.

È possibile eseguire query o scaricare uno o tutti questi tipi di modelli di visualizzazione: rescoring (Rescore), punteggiatura (Punct), ri-segmentazione (Resegment) e wfstitn (Wfstitn). In caso contrario, è possibile usare l'opzione FullDisplay (con o senza altri tipi) per eseguire query o scaricare tutti i tipi di modelli di visualizzazione.

Impostare BaseModelLocale per eseguire una query sul modello di visualizzazione più recente disponibile nel locale di destinazione. Se si includono più tipi di modello di visualizzazione, il comando restituisce i modelli di visualizzazione disponibili più recenti per ogni tipo. Per esempio:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Imposta DisplayLocale per scaricare il più recente modello di visualizzazione disponibile per la località di destinazione. Quando si imposta DisplayLocale, è necessario specificare FullDisplay o un sottoinsieme di modelli di visualizzazione separati da spazi. Il comando scarica il modello di visualizzazione disponibile più recente per ogni tipo specificato. Per esempio:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Impostare un parametro ID modello per scaricare un modello di visualizzazione specifico: rescoring (RescoreId), punteggiatura (PunctId), resegmentazione (ResegmentId) o wfstitn (WfstitnId). Questo è simile a come scaricare un modello di base tramite il ModelId parametro . Ad esempio, per scaricare un modello di visualizzazione di ri-punteggio, è possibile usare il seguente comando con il parametro RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Nota

Se si impostano più query o parametri di download, il comando assegna la priorità in questo ordine: BaseModelLocale, ID modello e quindi DisplayLocale (applicabile solo per i modelli di visualizzazione).

Eseguire il contenitore con docker run

Usare il comando docker run per eseguire il contenitore per il servizio.

Trascrizione vocale personalizzata
Riconoscimento vocale personalizzato disconnesso al testo

La tabella seguente rappresenta i vari docker run parametri e le relative descrizioni corrispondenti:

Parametro	Descrizione
`{VOLUME_MOUNT}`	Montaggio del volume del computer host, utilizzato da Docker per mantenere persistente il modello personalizzato. Un esempio è `c:\CustomSpeech` dove l'unità `c:\` si trova nel computer host.
`{MODEL_ID}`	ID modello di base o riconoscimento vocale personalizzato. Per altre informazioni, vedere Ottenere l'ID modello.
`{ENDPOINT_URI}`	L'endpoint è necessario per la misurazione e la fatturazione. Per altre informazioni, vedere Argomenti di fatturazione.
`{API_KEY}`	La chiave API è obbligatoria. Per altre informazioni, vedere Argomenti di fatturazione.

Quando si esegue il contenitore personalizzato per la conversione di voce in testo, configurare la porta, la memoria e la CPU in base ai requisiti e alle raccomandazioni del contenitore personalizzato per la conversione di voce in testo.

Ecco un comando di esempio docker run con valori segnaposto. È necessario specificare i VOLUME_MOUNTvalori , MODEL_IDENDPOINT_URI, e API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando:

Esegue un contenitore di conversione da voce a testo personalizzato dall'immagine del contenitore.
Alloca 4 core CPU e 8 GB di memoria.
Carica il modello personalizzato di riconoscimento vocale da testo dal montaggio di volume di input, ad esempio C:\CustomSpeech.
Espone la porta TCP 5000 e alloca uno pseudo-TTY per il contenitore.
Scarica il modello indicato da ModelId (se non viene trovato nel volume di montaggio).
Se il modello personalizzato è stato scaricato in precedenza, l'oggetto ModelId viene ignorato.
Rimuove automaticamente il contenitore dopo l'uscita. L'immagine del contenitore è ancora disponibile nel computer host.

Per altre informazioni sui docker run contenitori voce, vedere Installare ed eseguire contenitori voce con Docker.

Per eseguire contenitori disconnessi (non connessi a Internet), è necessario inviare il modulo di richiesta e attendere l'approvazione. Per ulteriori informazioni sull'applicazione e l'acquisto di un piano di abbonamento per l'uso di contenitori in ambienti disconnessi, vedere Usare contenitori in ambienti disconnessi nella documentazione di Foundry Tools.

Se hai l'approvazione per eseguire il container disconnesso da Internet, nel seguente esempio viene illustrata la formattazione del comando docker run da usare, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Per preparare e configurare un contenitore di riconoscimento vocale personalizzato disconnesso, sono necessarie due risorse vocali separate:

Una normale risorsa Azure Speech in Foundry Tools configurata per l'uso di un piano tariffario "S0 - Standard" o di un piano tariffario a impegno "Trascrizione personalizzata". Viene usato per eseguire il training, scaricare e configurare i modelli di riconoscimento vocale personalizzati da usare nel contenitore.
Una risorsa del Servizio Azure Speech configurata per l'uso del piano tariffario "DC0 Commitment (Disconnected)". Viene usato per scaricare il file di licenza del contenitore disconnesso necessario per eseguire il contenitore in modalità disconnessa.

Seguire questa procedura per scaricare ed eseguire il contenitore in ambienti disconnessi.

Scaricare un modello per il contenitore disconnesso. Per questo passaggio, usare una normale risorsa Speech di Azure configurata per usare un piano tariffario "S0 - Standard" o un impegno tariffario "Speech-to-Text (Personalizzato)".
Scaricare la licenza del contenitore disconnesso. Per questo passaggio, usare una risorsa Azure Voce configurata per usare il piano tariffario "DC0 Commitment (Disconnected)".
Esegui un container disconnesso per il servizio. Per questo passaggio, usare una risorsa Azure Voce configurata per usare il piano tariffario "DC0 Commitment (Disconnected)".

Scaricare un modello per il contenitore disconnesso

Per questo passaggio, usare una normale risorsa di Azure Speech configurata per utilizzare un piano tariffario "S0 - Standard" o un "Sintesi vocale personalizzata" con piano tariffario di impegno.

La tabella seguente rappresenta i vari docker run parametri e le relative descrizioni corrispondenti:

Parametro	Descrizione
`{VOLUME_MOUNT}`	Montaggio del volume del computer host, usato da Docker per rendere persistente il modello personalizzato. Un esempio è `c:\CustomSpeech`, in cui l'unità `c:\` si trova nel computer host.
`{MODEL_ID}`	ID del modello di discorso personalizzato o del modello di base. Per altre informazioni, vedere Ottenere l'ID modello.
`{ENDPOINT_URI}`	L'endpoint è necessario per la misurazione e la fatturazione. Per altre informazioni, vedere Argomenti di fatturazione.
`{API_KEY}`	La chiave API è obbligatoria. Per altre informazioni, vedere Argomenti di fatturazione.

Quando si esegue il contenitore di riconoscimento vocale personalizzato, configurare la porta, la memoria e la CPU in base ai requisiti e alle raccomandazioni del contenitore di riconoscimento vocale personalizzato.

Ecco un comando di esempio docker run con valori segnaposto. È necessario specificare i VOLUME_MOUNTvalori , MODEL_IDENDPOINT_URI, e API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando:

Esegue un contenitore di conversione vocale in testo personalizzato dall'immagine del contenitore.
Alloca 4 core CPU e 8 GB di memoria.
Carica il modello di riconoscimento vocale personalizzato dalla montatura del volume di input, ad esempio C:\CustomSpeech.
Espone la porta TCP 5000 e alloca uno pseudo-TTY per il contenitore.
Scarica il modello dato il ModelId se non è trovato nel punto di montaggio del volume.
Se il modello personalizzato è stato scaricato in precedenza, l'oggetto ModelId viene ignorato.
Rimuove automaticamente il contenitore dopo l'uscita. L'immagine del contenitore è ancora disponibile nel computer host.

Per altre informazioni sui docker run contenitori voce, vedere Installare ed eseguire contenitori voce con Docker.

Scaricare la licenza del contenitore disconnessa

Scaricare quindi il file di licenza disconnesso. Il DownloadLicense=True parametro nel docker run comando scarica un file di licenza che consente l'esecuzione del contenitore Docker quando non è connesso a Internet. Contiene anche una data di scadenza, dopo la quale il file di licenza non sarà valido per eseguire il contenitore.

È possibile usare solo un file di licenza con il contenitore e il modello appropriati per cui si è stati approvati. Ad esempio, non è possibile usare un file di licenza per un speech-to-text contenitore con un neural-text-to-speech contenitore.

Segnaposto	Descrizione
`{IMAGE}`	Immagine del contenitore da usare. Per esempio: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Percorso in cui viene scaricata e montata la licenza. Per esempio: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Percorso in cui si trova il modello. Per esempio: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Endpoint per l'autenticazione della richiesta di servizio. È possibile trovarla nella pagina Key e endpoint della risorsa nel portale di Azure. Per esempio: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	La chiave per la tua risorsa di sintesi vocale. È possibile trovarla nella pagina Key e endpoint della risorsa nel portale di Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Percorso della cartella di licenza nel file system locale del contenitore. Per esempio: `/path/to/license/directory`

Per questo passaggio, usare una risorsa Azure Voce configurata per usare il piano tariffario "DC0 Commitment (Disconnected)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Eseguire il contenitore non collegato

Dopo aver scaricato il file di licenza, è possibile eseguire il contenitore in un ambiente disconnesso. Nell'esempio seguente viene illustrata la formattazione del docker run comando usato, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Ovunque venga eseguito il contenitore, il file di licenza deve essere montato nel contenitore e il percorso della cartella di licenza nel file system locale del contenitore deve essere specificato con Mounts:License=. È necessario specificare anche un punto di montaggio di output in modo che sia possibile scrivere i record di utilizzo della fatturazione.

Segnaposto	Descrizione
`{IMAGE}`	Immagine del contenitore da usare. Per esempio: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Dimensioni appropriate della memoria da allocare per il contenitore. Per esempio: `4g`
`{NUMBER_CPUS}`	Numero appropriato di CPU da allocare per il contenitore. Per esempio: `4`
`{LICENSE_MOUNT}`	Percorso in cui viene scaricata e montata la licenza. Per esempio: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Percorso in cui si trova il modello. Per esempio: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Percorso di output per i log. Per esempio: `/host/output:/path/to/output/directory` Per ulteriori informazioni, vedere record di utilizzo nella documentazione di Foundry Tools.
`{ENDPOINT_URI}`	Endpoint per l'autenticazione della richiesta di servizio. È possibile trovarla nella pagina Key e endpoint della risorsa nel portale di Azure. Per esempio: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Chiave per la risorsa di Sintesi vocale. È possibile trovarla nella pagina Key e endpoint della risorsa nel portale di Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Percorso della cartella di licenza nel file system locale del contenitore. Per esempio: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Percorso della cartella di output nel file system locale del contenitore. Per esempio: `/path/to/output/directory`

Per questo passaggio, usare una risorsa Azure Voce configurata per usare il piano tariffario "DC0 Commitment (Disconnected)".

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Il contenitore di riconoscimento vocale personalizzato fornisce una directory predefinita per la scrittura del file di licenza e del log di fatturazione in fase di esecuzione. Le directory predefinite sono rispettivamente /license e /output.

Quando si montano queste directory nel contenitore con il comando docker run -v, assicurarsi che la directory della macchina locale sia impostata la proprietà a user:group nonroot:nonroot prima di eseguire il contenitore.

Di seguito è riportato un comando di esempio per impostare la proprietà di file/directory.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Usare il contenitore

I contenitori di riconoscimento vocale forniscono API endpoint di query basate su WebSocket, accessibili tramite Speech SDK e Speech CLI. Per impostazione predefinita, Speech SDK e l'interfaccia della riga di comando di Voce usano il servizio Voce pubblico. Per usare il contenitore, è necessario modificare il metodo di inizializzazione.

Importante

Quando si usa il servizio Voce con contenitori, assicurarsi di usare l'autenticazione host. Se si configura la chiave e l'area, le richieste verranno inviate al servizio Voce pubblico. I risultati del servizio Voce potrebbero non essere quello previsto. Le richieste provenienti da contenitori disconnessi avranno esito negativo.