Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Il contenitore personalizzato di conversione da voce a testo trascrive il parlato in tempo reale o le registrazioni audio batch con risultati intermedi. È possibile usare un modello personalizzato creato nel portale di riconoscimento vocale personalizzato. Questo articolo illustra come scaricare, installare ed eseguire una voce personalizzata in un contenitore di testo.
Per altre informazioni sui prerequisiti, convalidare l'esecuzione di un contenitore, l'esecuzione di più contenitori nello stesso host e l'esecuzione di contenitori disconnessi, vedere Installare ed eseguire contenitori voce con Docker.
Immagini del contenitore
L'immagine del contenitore di riconoscimento vocale personalizzata per tutte le versioni e le impostazioni locali supportate è disponibile nel registro dei container di Microsoft (MCR). Si trova all'interno del azure-cognitive-services/speechservices/ repository ed è denominato custom-speech-to-text.
Il nome completo dell'immagine del contenitore è, mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Aggiungere una versione specifica o accodare :latest per ottenere la versione più recente.
| Versione | Percorso |
|---|---|
| Più recente | mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest |
| 4.12.0 | mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.12.0-amd64 |
Tutti i tag, ad eccezione di latest, sono nel formato seguente e fanno distinzione tra maiuscole e minuscole:
<major>.<minor>.<patch>-<platform>-<prerelease>
Nota
I locale e voice per i contenitori di trascrizione vocale personalizzata sono determinati dal modello personalizzato ingestito dal contenitore.
I tag sono disponibili anche in formato JSON per praticità. Il corpo include il percorso del contenitore e l'elenco dei tag. I tag non vengono ordinati in base alla versione, ma "latest" vengono sempre inclusi alla fine dell'elenco, come illustrato in questo frammento di codice:
{
"name": "azure-cognitive-services/speechservices/custom-speech-to-text",
"tags": [
<--redacted for brevity-->
"4.0.0-amd64",
"4.1.0-amd64",
"4.10.0-amd64",
"4.11.0-amd64",
"4.12.0-amd64",
"4.2.0-amd64",
"4.3.0-amd64",
"4.4.0-amd64",
"4.5.0-amd64",
"4.6.0-amd64",
"4.7.0-amd64",
"4.8.0-amd64",
"4.9.0-amd64",
"5.0.0-preview-amd64",
"5.0.1-preview-amd64",
"latest"
]
}
Ottieni l'immagine del contenitore con Docker pull
Sono necessari i prerequisiti , incluso l'hardware richiesto. Si veda anche l'allocazione consigliata delle risorse per ogni contenitore della voce.
Usare il comando pull docker per scaricare un'immagine del contenitore da Microsoft Registro Container:
docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest
Nota
La determinazione di locale e voice per i contenitori vocali personalizzati è basata sul modello personalizzato utilizzato dal contenitore.
Ottieni l'ID modello
Prima di poter eseguire il contenitore, è necessario conoscere l'ID modello del modello personalizzato o un ID modello di base. Quando esegui il contenitore, specifica uno degli ID modello da scaricare e utilizzare.
Il training del modello personalizzato deve essere eseguito tramite Speech Studio. Per informazioni su come ottenere l'ID modello, vedere Ciclo di vita del modello di riconoscimento vocale personalizzato.
Ottenere l'ID modello da usare come argomento per il ModelId parametro del docker run comando.
Visualizzare il download del modello
Prima di eseguire il contenitore, è possibile ottenere facoltativamente le informazioni sui modelli di visualizzazione disponibili e scegliere di scaricare tali modelli nel contenitore di testo per ottenere un output finale di visualizzazione estremamente migliorato. Il download del modello di visualizzazione è disponibile con il contenitore personalizzato di riconoscimento vocale versione 3.1.0 e successive.
Nota
Anche se si usa il docker run comando , il contenitore non viene avviato per il servizio.
È possibile eseguire query o scaricare uno o tutti questi tipi di modelli di visualizzazione: rescoring (Rescore), punteggiatura (Punct), ri-segmentazione (Resegment) e wfstitn (Wfstitn). In caso contrario, è possibile usare l'opzione FullDisplay (con o senza altri tipi) per eseguire query o scaricare tutti i tipi di modelli di visualizzazione.
Impostare BaseModelLocale per eseguire una query sul modello di visualizzazione più recente disponibile nel locale di destinazione. Se si includono più tipi di modello di visualizzazione, il comando restituisce i modelli di visualizzazione disponibili più recenti per ogni tipo. Per esempio:
docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \ # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
Imposta DisplayLocale per scaricare il più recente modello di visualizzazione disponibile per la località di destinazione. Quando si imposta DisplayLocale, è necessario specificare FullDisplay o un sottoinsieme di modelli di visualizzazione separati da spazi. Il comando scarica il modello di visualizzazione disponibile più recente per ogni tipo specificato. Per esempio:
docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \ # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
Impostare un parametro ID modello per scaricare un modello di visualizzazione specifico: rescoring (RescoreId), punteggiatura (PunctId), resegmentazione (ResegmentId) o wfstitn (WfstitnId). Questo è simile a come scaricare un modello di base tramite il ModelId parametro . Ad esempio, per scaricare un modello di visualizzazione di ri-punteggio, è possibile usare il seguente comando con il parametro RescoreId:
docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
Nota
Se si impostano più query o parametri di download, il comando assegna la priorità in questo ordine: BaseModelLocale, ID modello e quindi DisplayLocale (applicabile solo per i modelli di visualizzazione).
Eseguire il contenitore con docker run
Usare il comando docker run per eseguire il contenitore per il servizio.
La tabella seguente rappresenta i vari docker run parametri e le relative descrizioni corrispondenti:
| Parametro | Descrizione |
|---|---|
{VOLUME_MOUNT} |
Montaggio del volume del computer host, utilizzato da Docker per mantenere persistente il modello personalizzato. Un esempio è c:\CustomSpeech dove l'unità c:\ si trova nel computer host. |
{MODEL_ID} |
ID modello di base o riconoscimento vocale personalizzato. Per altre informazioni, vedere Ottenere l'ID modello. |
{ENDPOINT_URI} |
L'endpoint è necessario per la misurazione e la fatturazione. Per altre informazioni, vedere Argomenti di fatturazione. |
{API_KEY} |
La chiave API è obbligatoria. Per altre informazioni, vedere Argomenti di fatturazione. |
Quando si esegue il contenitore personalizzato per la conversione di voce in testo, configurare la porta, la memoria e la CPU in base ai requisiti e alle raccomandazioni del contenitore personalizzato per la conversione di voce in testo.
Ecco un comando di esempio docker run con valori segnaposto. È necessario specificare i VOLUME_MOUNTvalori , MODEL_IDENDPOINT_URI, e API_KEY :
docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
Questo comando:
- Esegue un contenitore di conversione da voce a testo personalizzato dall'immagine del contenitore.
- Alloca 4 core CPU e 8 GB di memoria.
- Carica il modello personalizzato di riconoscimento vocale da testo dal montaggio di volume di input, ad esempio C:\CustomSpeech.
- Espone la porta TCP 5000 e alloca uno pseudo-TTY per il contenitore.
- Scarica il modello indicato da
ModelId(se non viene trovato nel volume di montaggio). - Se il modello personalizzato è stato scaricato in precedenza, l'oggetto
ModelIdviene ignorato. - Rimuove automaticamente il contenitore dopo l'uscita. L'immagine del contenitore è ancora disponibile nel computer host.
Per altre informazioni sui docker run contenitori voce, vedere Installare ed eseguire contenitori voce con Docker.
Usare il contenitore
I contenitori di riconoscimento vocale forniscono API endpoint di query basate su WebSocket, accessibili tramite Speech SDK e Speech CLI. Per impostazione predefinita, Speech SDK e l'interfaccia della riga di comando di Voce usano il servizio Voce pubblico. Per usare il contenitore, è necessario modificare il metodo di inizializzazione.
Importante
Quando si usa il servizio Voce con contenitori, assicurarsi di usare l'autenticazione host. Se si configura la chiave e l'area, le richieste verranno inviate al servizio Voce pubblico. I risultati del servizio Voce potrebbero non essere quello previsto. Le richieste provenienti da contenitori disconnessi avranno esito negativo.
Anziché usare questa configurazione di inizializzazione Azure-cloud:
var config = SpeechConfig.FromSubscription(...);
Usare questa configurazione con il contenitore host:
var config = SpeechConfig.FromHost(
new Uri("ws://localhost:5000"));
Anziché usare questa configurazione di inizializzazione Azure-cloud:
auto speechConfig = SpeechConfig::FromSubscription(...);
Usare questa configurazione con il contenitore host:
auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");
Anziché usare questa configurazione di inizializzazione Azure-cloud:
speechConfig, err := speech.NewSpeechConfigFromSubscription(...)
Usare questa configurazione con l'host container:
speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")
Anziché usare questa configurazione di inizializzazione Azure-cloud:
SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);
Usare questa configurazione con l'host contenitore:
SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");
Anziché usare questa configurazione di inizializzazione Azure-cloud:
const speechConfig = sdk.SpeechConfig.fromSubscription(...);
Utilizzare questa configurazione con il container host:
const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");
Anziché usare questa configurazione di inizializzazione Azure-cloud:
SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];
Usare questa configurazione con il contenitore host:
SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];
Anziché usare questa configurazione di inizializzazione Azure-cloud:
let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");
Usare questa configurazione con l'host del contenitore:
let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");
Anziché usare questa configurazione di inizializzazione Azure-cloud:
speech_config = speechsdk.SpeechConfig(
subscription=speech_key, region=service_region)
Usare questa configurazione con l'endpoint contenitore:
speech_config = speechsdk.SpeechConfig(
host="ws://localhost:5000")
Quando usi la CLI Vocale in un contenitore, includi l'opzione --host ws://localhost:5000/. È anche necessario specificare --key none per assicurarsi che l'interfaccia della riga di comando non tenti di usare una chiave di riconoscimento vocale per l'autenticazione. Per informazioni su come configurare l'interfaccia della riga di comando di Voce, vedere Introduzione all'interfaccia della riga di comando di Azure Speech in Foundry Tools.
Provare la guida introduttiva alla conversione da voce a testo usando l'autenticazione host anziché la chiave e la regione.
Passaggi successivi
- Consulta la panoramica dei contenitori di elaborazione vocale
- Esaminare i contenitori configurati per le impostazioni di configurazione
- Usare più contenitori di intelligenza artificiale Azure