Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
documentazione di Reference | Package (PyPi) | Esempi aggiuntivi in GitHub
In questa guida introduttiva si esegue un'app console per creare sottotitoli con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure Speech in Foundry Tools Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Sottoscrizione Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Foundry per i Servizi vocali nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Speech SDK per Python è disponibile come modulo Python Package Index (PyPI). Speech SDK per Python è compatibile con Windows, Linux e macOS.
- È necessario installare il Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017, 2019 e 2022 per la piattaforma. L'installazione di questo pacchetto per la prima volta potrebbe richiedere un riavvio.
- In Linux è necessario usare l'architettura di destinazione x64.
- Installare una versione di Python dalla versione 3.10 o successiva. Controllare prima di tutto la guida all'installazione dell'SDK per altri requisiti
- È anche necessario installare GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere a Foundry Tools. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per la produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si raccomanda l'autenticazione di Microsoft Entra ID con identità gestite delle risorse Azure per evitare di archiviare le credenziali nelle applicazioni in esecuzione nel cloud.
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usano chiavi API, archiviarli in modo sicuro in Azure Key Vault, ruotare regolarmente le chiavi e limitare l'accesso alle Azure Key Vault usando il controllo degli accessi in base al ruolo e le restrizioni di accesso alla rete. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la
SPEECH_KEYvariabile di ambiente, sostituire your-key con una delle chiavi per la risorsa. - Per impostare la
SPEECH_REGIONvariabile di ambiente, sostituire la tua regione con una delle regioni per le risorse. - Per impostare la
ENDPOINTvariabile di ambiente, sostituireyour-endpointcon l'endpoint effettivo della risorsa Voce.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setambiente con setx anziché .
Dopo aver aggiunto le variabili di ambiente, potrebbe essere necessario riavviare tutti i programmi che devono leggere le variabili di ambiente, inclusa la finestra della console. Ad esempio, se si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Seguire questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
- Scaricare o copiare i file di esempio dalla cartella da GitHub in una directory locale.
- Aprire un prompt dei comandi nella stessa directory di
captioning.py. - Eseguire questo comando per installare Speech SDK:
pip install azure-cognitiveservices-speech - Esegui l'applicazione con i tuoi argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti . Ecco un esempio:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Assicurarsi che i percorsi specificati da
--inpute--outputsiano validi. In caso contrario, è necessario modificare i percorsi.Assicurarsi di impostare le
SPEECH_KEYvariabili di ambiente eSPEECH_REGIONcome descritto in precedenza. In caso contrario, utilizzare gli argomenti--keye--region.
Controllare i risultati
Quando si usa l'opzione realTime nell'esempio precedente, i risultati parziali degli Recognizing eventi vengono inclusi nell'output. In questo esempio solo l'evento finale Recognized include le virgole. Le virgole non sono le uniche differenze tra Recognizing e Recognized eventi. Per altre informazioni, vedere Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando si usa l'opzione --offline, i risultati sono stabili a partire dall'evento finale Recognized. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per ulteriori informazioni, vedere Formato di output della didascalia.
Utilizzo e argomenti
Utilizzo: python captioning.py --input <input file>
Le opzioni di connessione includono:
-
--key: la chiave della risorsa Foundry. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key. -
--region REGION: Regione della risorsa Foundry. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region. Esempi:westus,northeurope
Importante
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usa una chiave API, archiviarla in modo sicuro in Azure Key Vault. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Le opzioni di input includono:
-
--input FILE: ingresso audio dal file. L'input predefinito è il microfono. -
--format FORMAT: usa il formato audio compresso. Valido solo con--file. I valori validi sonoalaw,any,flacmp3,mulaw, eogg_opus. Il valore predefinito èany. Per usare unwavfile, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.
Le opzioni di lingua includono:
-
--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno le didascalie in righe. Il valore predefinito èen-US.
Le opzioni di riconoscimento includono:
-
--offline: output dei risultati offline. Sostituisce--realTime. La modalità di output predefinita è offline. -
--realTime: output dei risultati in tempo reale.
L'output in tempo reale include Recognizing i risultati degli eventi. L'output offline predefinito è Recognized soltanto i risultati dell'evento. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet esegue l'override di questa opzione. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
-
--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
-
--help: mostra aiuto e fai arrestare -
--output FILE: restituisce le didascalie nell'oggetto specificatofile. Questo indicatore è obbligatorio. -
--srt: Output delle didascalie nel formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedere Formato di output della didascalia. -
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese). -
--lines LINES: imposta il numero di righe per una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2. -
--delay MILLISECONDS: numero di MILLISECONDI per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Il valore minimo è 0,0. Il valore predefinito è 1000. -
--remainTime MILLISECONDS: Quanti millisecondi una didascalia dovrebbe rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. Il valore predefinito è 1000. -
--quiet: Sopprime l'output della console, ad eccezione degli errori. -
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare . -
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è3. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Per altre informazioni, vedere Concetti sui risultati parziali.
Pulire le risorse
È possibile usare il portale Azure o Azure command line interface (CLI) per rimuovere la risorsa Voce creata.
documentazione di Reference | Package (NuGet) | Esempi aggiuntivi in GitHub
In questa guida introduttiva, si esegue una app console per creare trascrizioni con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure Speech in Foundry Tools Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Sottoscrizione Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Foundry per i Servizi vocali nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Speech SDK è disponibile come pacchetto NuGet e implementa .NET Standard 2.0. Si installa Speech SDK più avanti in questa guida, ma prima di tutto controllare la guida all'installazione dell'SDK per altri requisiti.
È anche necessario installare GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere a Foundry Tools. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per la produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si raccomanda l'autenticazione di Microsoft Entra ID con identità gestite delle risorse Azure per evitare di archiviare le credenziali nelle applicazioni in esecuzione nel cloud.
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usano chiavi API, archiviarli in modo sicuro in Azure Key Vault, ruotare regolarmente le chiavi e limitare l'accesso alle Azure Key Vault usando il controllo degli accessi in base al ruolo e le restrizioni di accesso alla rete. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la
SPEECH_KEYvariabile di ambiente, sostituire your-key con una delle chiavi per la risorsa. - Per impostare la variabile di ambiente
SPEECH_REGION, sostituire la tua-regione con una delle regioni per la risorsa. - Per impostare la
ENDPOINTvariabile di ambiente, sostituireyour-endpointcon l'endpoint effettivo della risorsa Voce.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setambiente con setx anziché .
Dopo aver aggiunto le variabili di ambiente, potrebbe essere necessario riavviare tutti i programmi che devono leggere le variabili di ambiente, inclusa la finestra della console. Ad esempio, se si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Seguire questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
- Copiare scenarios/csharp/dotnetcore/captioning/ file di esempio da GitHub. Se Git è installato, aprire un prompt dei comandi ed eseguire il
git clonecomando per scaricare il repository degli esempi di Speech SDK.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git - Aprire una finestra del terminale e spostarsi nella directory del progetto.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/ - Compilare il progetto con l'interfaccia della riga di comando di .NET.
dotnet build - Esegui l'applicazione con gli argomenti di riga di comando che preferisci. Per le opzioni disponibili, vedere utilizzo e argomenti . Ecco un esempio:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Assicurarsi che i percorsi specificati da
--inpute--outputsiano validi. In caso contrario, è necessario modificare i percorsi.Assicurarsi di impostare le
SPEECH_KEYvariabili di ambiente eSPEECH_REGIONcome descritto in precedenza. In caso contrario, utilizzare gli--keye--regionargomenti.
Controllare i risultati
Quando si usa l'opzione realTime nell'esempio precedente, i risultati parziali degli Recognizing eventi vengono inclusi nell'output. In questo esempio solo l'evento finale Recognized include le virgole. Le virgole non sono le uniche differenze tra Recognizing e Recognized eventi. Per altre informazioni, vedere Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando utilizzi l'opzione --offline, i risultati sono stabili a partire dall'evento finale Recognized. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.
Utilizzo e argomenti
Utilizzo: captioning --input <input file>
Le opzioni di connessione includono:
-
--key: chiave della risorsa Foundry. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key. -
--region REGION: regione della risorsa Foundry. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region. Esempi:westus,northeurope
Importante
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usa una chiave API, archiviarla in modo sicuro in Azure Key Vault. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Le opzioni di input includono:
-
--input FILE: input audio dal file. L'input predefinito è il microfono. -
--format FORMAT: usa il formato audio compresso. Valido solo con--file. I valori validi sonoalaw,any,flacmp3,mulaw, eogg_opus. Il valore predefinito èany. Per usare unwavfile, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.
Le opzioni di lingua includono:
-
--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno le didascalie in righe. Il valore predefinito èen-US.
Le opzioni di riconoscimento includono:
-
--offline: output dei risultati offline. Esclusione di--realTime. La modalità di output predefinita è offline. -
--realTime: Visualizza i risultati in tempo reale.
L'output in tempo reale include Recognizing i risultati degli eventi. L'output offline predefinito è Recognized solo risultati dell'evento. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet sostituisce questa. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
-
--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
-
--help: mostra la guida e ferma -
--output FILE: restituisce le didascalie nell'oggetto specificatofile. Questo indicatore è obbligatorio. -
--srt: Esporta didascalie in formato SRT (SubRip Text). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedere Formato di output della didascalia. -
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese). -
--lines LINES: imposta il numero di righe per una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2. -
--delay MILLISECONDS: numero di MILLISECONDI per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Il valore minimo è 0,0. Il valore predefinito è 1000. -
--remainTime MILLISECONDS: Quanti MILLISECONDI una didascalia deve rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. Il valore predefinito è 1000. -
--quiet: Sopprime l'output della console, ad eccezione degli errori. -
--profanity OPTION: Valori ammessi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare . -
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è3. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Per ulteriori informazioni, vedere i concetti di Risultati parziali.
Pulire le risorse
È possibile usare il portale Azure o Azure command line interface (CLI) per rimuovere la risorsa Voce creata.
Documentazione di riferimento | Pacchetto (npm) | Esempi aggiuntivi su GitHub | Codice sorgente della libreria
In questa guida introduttiva si esegue un'app console per creare sottotitoli con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure Speech in Foundry Tools Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Sottoscrizione Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Foundry per i Servizi vocali nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Prima di poter eseguire qualsiasi operazione, è necessario installare Speech SDK per JavaScript. Se si vuole solo installare il nome del pacchetto, eseguire npm install microsoft-cognitiveservices-speech-sdk. Per istruzioni sull'installazione guidata, vedere la guida all'installazione dell'SDK.
Creare didascalie dal parlato
Seguire questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
Copia i file di esempio da scenarios/javascript/node/captioning/ da GitHub nella directory del tuo progetto.
Aprire un prompt dei comandi nella stessa directory di
Captioning.js.Installare Speech SDK per JavaScript:
npm install microsoft-cognitiveservices-speech-sdkEsegui l'applicazione con i tuoi argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti . Ecco un esempio:
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Sostituire
YourSpeechResoureKeycon la chiave della risorsa Voce e sostituireYourServiceRegioncon l'area della risorsa Voce, ad esempiowestusonortheurope. Assicurarsi che i percorsi specificati da--inpute--outputsiano validi. In caso contrario, è necessario modificare i percorsi.Nota
Speech SDK per JavaScript non supporta l'audio di input compresso. È necessario usare un file WAV come illustrato nell'esempio.
Importante
Ricordarsi di rimuovere la chiave dal codice al termine e non pubblicarla mai pubblicamente. Per l'ambiente di produzione, usare un modo sicuro per archiviare e accedere alle credenziali, ad esempio Azure Key Vault. Per ulteriori informazioni, vedere l'articolo Sicurezza degli strumenti Foundry.
Controllare i risultati
Il file di output con sottotitoli completi viene scritto in caption.output.txt. I risultati intermedi vengono visualizzati nella console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.
Utilizzo e argomenti
Utilizzo: node captioning.js --key <key> --region <region> --input <input file>
Le opzioni di connessione includono:
-
--key: chiave della risorsa Foundry. -
--region REGION: regione della risorsa Foundry. Esempi:westus,northeurope
Le opzioni di input includono:
-
--input FILE: input audio dal file. L'input predefinito è il microfono. -
--format FORMAT: usa il formato audio compresso. Valido solo con--file. I valori validi sonoalaw,any,flacmp3,mulaw, eogg_opus. Il valore predefinito èany. Per usare unwavfile, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.
Le opzioni di lingua includono:
-
--languages LANG1,LANG2: abilita l'identificazione della lingua per le lingue specificate. Ad esempio:en-US,ja-JP. Questa opzione è disponibile solo con gli esempi di didascalia C++, C# e Python. Per altre informazioni, vedere Identificazione lingua.
Le opzioni di riconoscimento includono:
-
--recognizing: risultati dell'evento di outputRecognizing. L'output predefinito mostra solo i risultati dell'eventoRecognized. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione--quietannulla questa. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
-
--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
-
--help: mostra questa guida e ferma -
--output FILE: Emette didascalie nelfilespecificato. Questo segnalatore è obbligatorio. -
--srt: Genera didascalie di output in formato SRT (Testo SubRip). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedere Formato di output della didascalia. -
--quiet: Sopprimere l'output della console, ad eccezione degli errori. -
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare . -
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è3. Per ulteriori informazioni, consultare i concetti di Ottenere risultati parziali.
Pulire le risorse
È possibile usare il portale Azure o Azure command line interface (CLI) per rimuovere la risorsa Voce creata.
documentazione di Reference | Esempi aggiuntivi in GitHub
In questa guida introduttiva si esegue un'app console per creare sottotitoli con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure Speech in Foundry Tools Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Sottoscrizione Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Foundry per i Servizi vocali nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Prima di poter eseguire qualsiasi operazione, è necessario installare Speech SDK. L'esempio in questa guida introduttiva funziona con Microsoft Build di OpenJDK 17
- Installare Apache Maven. Eseguire quindi
mvn -vper confermare l'installazione avvenuta con successo. - Creare un nuovo
pom.xmlfile nella radice del progetto e copiarlo nel file seguente:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project> - Installare lo Speech SDK e le dipendenze.
mvn clean dependency:copy-dependencies - È anche necessario installare GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere a Foundry Tools. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per la produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si raccomanda l'autenticazione di Microsoft Entra ID con identità gestite delle risorse Azure per evitare di archiviare le credenziali nelle applicazioni in esecuzione nel cloud.
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usano chiavi API, archiviarli in modo sicuro in Azure Key Vault, ruotare regolarmente le chiavi e limitare l'accesso alle Azure Key Vault usando il controllo degli accessi in base al ruolo e le restrizioni di accesso alla rete. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la
SPEECH_KEYvariabile di ambiente, sostituire your-key con una delle chiavi per la risorsa. - Per impostare la variabile di ambiente
SPEECH_REGION, sostituire la tua regione con una delle regioni per la tua risorsa. - Per impostare la
ENDPOINTvariabile di ambiente, sostituireyour-endpointcon l'endpoint effettivo della risorsa Voce.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setambiente con setx anziché .
Dopo aver aggiunto le variabili di ambiente, potrebbe essere necessario riavviare tutti i programmi che devono leggere le variabili di ambiente, inclusa la finestra della console. Ad esempio, se si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Seguire questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
- Copia i file di esempio da da GitHub nella directory del progetto. Anche il
pom.xmlfile creato nell'installazione dell'ambiente deve trovarsi in questa directory. - Aprire un prompt dei comandi ed eseguire questo comando per compilare i file di progetto.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8 - Eseguite l'applicazione con gli argomenti della riga di comando preferiti. Per le opzioni disponibili, vedere utilizzo e argomenti . Ecco un esempio:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Assicurarsi che i percorsi specificati da
--inpute--outputsiano validi. In caso contrario, è necessario modificare i percorsi.Assicurarsi di impostare le
SPEECH_KEYvariabili di ambiente eSPEECH_REGIONcome descritto in precedenza. In caso contrario, utilizzare gli argomenti--keye--region.
Controllare i risultati
Quando si usa l'opzione realTime nell'esempio precedente, i risultati parziali degli Recognizing eventi vengono inclusi nell'output. In questo esempio solo l'evento finale Recognized include le virgole. Le virgole non sono le uniche differenze tra Recognizing e Recognized eventi. Per altre informazioni, vedere Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando si usa l'opzione --offline, i risultati sono stabili dopo l'evento finale Recognized. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.
Utilizzo e argomenti
Utilizzo: java -cp ".;target\dependency\*" Captioning --input <input file>
Le opzioni di connessione includono:
-
--key: La tua chiave di risorsa di Foundry. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key. -
--region REGION: La regione della risorsa Foundry. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region. Esempi:westus,northeurope
Importante
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usa una chiave API, archiviarla in modo sicuro in Azure Key Vault. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Le opzioni di input includono:
-
--input FILE: input audio dal file. L'input predefinito è il microfono. -
--format FORMAT: usa il formato audio compresso. Valido solo con--file. I valori validi sonoalaw,any,flacmp3,mulaw, eogg_opus. Il valore predefinito èany. Per usare unwavfile, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.
Le opzioni di lingua includono:
-
--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno le didascalie in righe. Il valore predefinito èen-US.
Le opzioni di riconoscimento includono:
-
--offline: output dei risultati offline. Sostituisce--realTime. La modalità di output predefinita è offline. -
--realTime: output dei risultati in tempo reale.
L'output in tempo reale include Recognizing i risultati degli eventi. L'output offline predefinito è Recognized soltanto i risultati dell'evento. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet annulla questa. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
-
--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
-
--help: mostra questa guida e ferma -
--output FILE: Emette didascalie nelfilespecificato. Questo segnalatore è obbligatorio. -
--srt: Genera didascalie di output in formato SRT (Testo SubRip). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedere Formato di output della didascalia. -
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese). -
--lines LINES: imposta il numero di righe per una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2. -
--delay MILLISECONDS: numero di MILLISECONDI per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Il valore minimo è 0,0. Il valore predefinito è 1000. -
--remainTime MILLISECONDS: Quanti millisecondi una didascalia dovrebbe rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. Il valore predefinito è 1000. -
--quiet: Sopprimere l'output della console, ad eccezione degli errori. -
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare . -
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è3. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Per ulteriori informazioni, consultare i concetti di Ottenere risultati parziali.
Pulire le risorse
È possibile usare il portale Azure o Azure command line interface (CLI) per rimuovere la risorsa Voce creata.
documentazione di Reference | Package (NuGet) | Esempi aggiuntivi in GitHub
In questa guida introduttiva si esegue un'app console per creare sottotitoli con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure Speech in Foundry Tools Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Sottoscrizione Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Foundry per i Servizi vocali nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Speech SDK è disponibile come pacchetto NuGet e implementa .NET Standard 2.0. Si installa Speech SDK più avanti in questa guida, ma prima di tutto controllare la guida all'installazione dell'SDK per eventuali altri requisiti
È anche necessario installare GStreamer per l'audio di input compresso.
Impostare le variabili di ambiente
È necessario autenticare l'applicazione per accedere a Foundry Tools. Questo articolo illustra come usare le variabili di ambiente per archiviare le credenziali. È quindi possibile accedere alle variabili di ambiente dal codice per autenticare l'applicazione. Per la produzione, usare un modo più sicuro per archiviare e accedere alle credenziali.
Importante
Si raccomanda l'autenticazione di Microsoft Entra ID con identità gestite delle risorse Azure per evitare di archiviare le credenziali nelle applicazioni in esecuzione nel cloud.
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usano chiavi API, archiviarli in modo sicuro in Azure Key Vault, ruotare regolarmente le chiavi e limitare l'accesso alle Azure Key Vault usando il controllo degli accessi in base al ruolo e le restrizioni di accesso alla rete. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Per impostare le variabili di ambiente per la chiave e l'area della risorsa Voce, aprire una finestra della console e seguire le istruzioni per il sistema operativo e l'ambiente di sviluppo.
- Per impostare la
SPEECH_KEYvariabile di ambiente, sostituire your-key con una delle chiavi per la risorsa. - Per impostare la
SPEECH_REGIONvariabile di ambiente, sostituire la tua regione con una delle regioni per le risorse. - Per impostare la
ENDPOINTvariabile di ambiente, sostituireyour-endpointcon l'endpoint effettivo della risorsa Voce.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se è sufficiente accedere alle variabili di ambiente nella console corrente, è possibile impostare la variabile di setambiente con setx anziché .
Dopo aver aggiunto le variabili di ambiente, potrebbe essere necessario riavviare tutti i programmi che devono leggere le variabili di ambiente, inclusa la finestra della console. Ad esempio, se si usa Visual Studio come editor, riavviare Visual Studio prima di eseguire l'esempio.
Creare didascalie dal parlato
Seguire questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia con Visual Studio Community 2022 in Windows.
Scaricare o copiare i file di esempio scenarios/cpp/windows/captioning/ da GitHub in una directory locale.
Aprire il file della soluzione
captioning.slnin Visual Studio Community 2022.Installare Speech SDK nel progetto con Gestione pacchetti NuGet.
Install-Package Microsoft.CognitiveServices.SpeechAprire Project>Proprietà>Generale. Impostare Configurazione su
All configurations. Impostare Standard del linguaggio C++ suISO C++17 Standard (/std:c++17).Aprire Build>Gestione configurazione.
- In un'installazione di Windows a 64 bit, impostare Piattaforma della soluzione attiva su
x64. - In un'installazione di Windows a 32 bit impostare Piattaforma attiva della soluzione su
x86.
- In un'installazione di Windows a 64 bit, impostare Piattaforma della soluzione attiva su
Apri Progetto>Proprietà>Debug. Immettere gli argomenti della riga di comando preferiti in Argomenti comando. Per le opzioni disponibili, vedere utilizzo e argomenti . Ecco un esempio:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Assicurarsi che i percorsi specificati da
--inpute--outputsiano validi. In caso contrario, è necessario modificare i percorsi.Assicurarsi di impostare le
SPEECH_KEYvariabili di ambiente eSPEECH_REGIONcome descritto in precedenza. In caso contrario, utilizzare gli--keye--regionargomenti.Compilare ed eseguire l'applicazione console.
Controllare i risultati
Quando si usa l'opzione realTime nell'esempio precedente, i risultati parziali degli Recognizing eventi vengono inclusi nell'output. In questo esempio solo l'evento finale Recognized include le virgole. Le virgole non sono le uniche differenze tra Recognizing e Recognized eventi. Per altre informazioni, vedere Ottenere risultati parziali.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando utilizzi l'opzione --offline, i risultati sono stabili a partire dall'evento finale Recognized. I risultati parziali non sono inclusi nell'output:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.
Utilizzo e argomenti
Utilizzo: captioning --input <input file>
Le opzioni di connessione includono:
-
--key: chiave della risorsa Foundry. Esegue l'override della variabile di ambiente SPEECH_KEY. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--key. -
--region REGION: regione della risorsa Foundry. Esegue l'override della variabile di ambiente SPEECH_REGION. È necessario impostare la variabile di ambiente (scelta consigliata) o usare l'opzione--region. Esempi:westus,northeurope
Importante
Usare le chiavi API con cautela. Non includere la chiave API direttamente nel codice e non pubblicarla mai pubblicamente. Se si usa una chiave API, archiviarla in modo sicuro in Azure Key Vault. Per altre informazioni sull'uso sicuro delle chiavi API nelle app, vedere ChiaviAPI con Azure Key Vault.
Per altre informazioni sulla sicurezza dei servizi di intelligenza artificiale, vedere Autorizzazione delle richieste a Servizi di Azure AI.
Le opzioni di input includono:
-
--input FILE: input audio dal file. L'input predefinito è il microfono. -
--format FORMAT: usa il formato audio compresso. Valido solo con--file. I valori validi sonoalaw,any,flacmp3,mulaw, eogg_opus. Il valore predefinito èany. Per usare unwavfile, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.
Le opzioni di lingua includono:
-
--language LANG: specificare una lingua usando una delle impostazioni locali supportate corrispondenti. Questa operazione viene utilizzata quando si suddivideno le didascalie in righe. Il valore predefinito èen-US.
Le opzioni di riconoscimento includono:
-
--offline: output dei risultati offline. Sostituisce--realTime. La modalità di output predefinita è offline. -
--realTime: output dei risultati in tempo reale.
L'output in tempo reale include Recognizing i risultati degli eventi. L'output offline predefinito è Recognized soltanto i risultati dell'evento. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione --quiet annulla questa. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
-
--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
-
--help: mostra questa guida e ferma -
--output FILE: Emette didascalie nelfilespecificato. Questo segnalatore è obbligatorio. -
--srt: Genera didascalie di output in formato SRT (Testo SubRip). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedere Formato di output della didascalia. -
--maxLineLength LENGTH: imposta il numero massimo di caratteri per riga per una didascalia su LENGTH. Il valore minimo è 20. Il valore predefinito è 37 (30 per cinese). -
--lines LINES: imposta il numero di righe per una didascalia su LINES. Il valore minimo è 1. Il valore predefinito è 2. -
--delay MILLISECONDS: numero di MILLISECONDI per ritardare la visualizzazione di ogni didascalia, per simulare un'esperienza in tempo reale. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Il valore minimo è 0,0. Il valore predefinito è 1000. -
--remainTime MILLISECONDS: Quanti millisecondi una didascalia dovrebbe rimanere sullo schermo se non viene sostituita da un'altra. Il valore minimo è 0,0. Il valore predefinito è 1000. -
--quiet: Sopprime l'output della console, ad eccezione degli errori. -
--profanity OPTION: Valori ammessi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare . -
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è3. Questa opzione è applicabile solo quando si usa ilrealTimeflag . Per ulteriori informazioni, vedere i concetti di Risultati parziali.
Pulire le risorse
È possibile usare il portale Azure o Azure command line interface (CLI) per rimuovere la risorsa Voce creata.
documentazione di Reference | Package (Go) | Esempi aggiuntivi in GitHub
In questa guida introduttiva si esegue un'app console per creare sottotitoli con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure Speech in Foundry Tools Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Sottoscrizione Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Foundry per i Servizi vocali nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Verificare se sono presenti passaggi di installazione specifici della piattaforma.
È anche necessario installare GStreamer per l'audio di input compresso.
Creare didascalie dal parlato
Seguire questa procedura per compilare ed eseguire l'esempio di codice di avvio rapido per la didascalia.
Scaricare o copiare i file di esempio scenarios/go/captioning/ da GitHub in una directory locale.
Aprire un prompt dei comandi nella stessa directory di
captioning.go.Eseguire i comandi seguenti per creare un file
go.modche collega i componenti di Speech SDK ospitati in GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-goCompilare il modulo GO.
go buildEsegui l'applicazione con gli argomenti di riga di comando che preferisci. Per le opzioni disponibili, vedere utilizzo e argomenti . Ecco un esempio:
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Sostituire
YourSpeechResoureKeycon la chiave della risorsa Voce e sostituireYourServiceRegioncon l'area della risorsa Voce, ad esempiowestusonortheurope. Assicurarsi che i percorsi specificati da--inpute--outputsiano validi. In caso contrario, è necessario modificare i percorsi.Importante
Ricordarsi di rimuovere la chiave dal codice al termine e non pubblicarla mai pubblicamente. Per l'ambiente di produzione, usare un modo sicuro per archiviare e accedere alle credenziali, ad esempio Azure Key Vault. Per ulteriori informazioni, vedere l'articolo Sicurezza degli strumenti Foundry.
Controllare i risultati
Il file di output con sottotitoli completi viene scritto in caption.output.txt. I risultati intermedi vengono visualizzati nella console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Il formato di output dell'intervallo di tempo SRT (SubRip Text) è hh:mm:ss,fff. Per altre informazioni, vedere Formato di output della didascalia.
Utilizzo e argomenti
Utilizzo: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Le opzioni di connessione includono:
-
--key: chiave della risorsa Foundry. -
--region REGION: regione della risorsa Foundry. Esempi:westus,northeurope
Le opzioni di input includono:
-
--input FILE: input audio dal file. L'input predefinito è il microfono. -
--format FORMAT: usa il formato audio compresso. Valido solo con--file. I valori validi sonoalaw,any,flacmp3,mulaw, eogg_opus. Il valore predefinito èany. Per usare unwavfile, non specificare il formato. Questa opzione non è disponibile con l'esempio di didascalia JavaScript. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso.
Le opzioni di lingua includono:
-
--languages LANG1,LANG2: abilita l'identificazione della lingua per le lingue specificate. Ad esempio:en-US,ja-JP. Questa opzione è disponibile solo con gli esempi di didascalia C++, C# e Python. Per altre informazioni, vedere Identificazione lingua.
Le opzioni di riconoscimento includono:
-
--recognizing: risultati dell'evento di outputRecognizing. L'output predefinito mostra solo i risultati dell'eventoRecognized. Questi vengono sempre scritti nella console, mai in un file di output. L'opzione--quietannulla questa. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale.
Le opzioni di accuratezza includono:
-
--phrases PHRASE1;PHRASE2: è possibile specificare un elenco di frasi da riconoscere, ad esempioContoso;Jessie;Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.
Le opzioni di output includono:
-
--help: mostra questa guida e ferma -
--output FILE: Emette didascalie nelfilespecificato. Questo segnalatore è obbligatorio. -
--srt: Genera didascalie di output in formato SRT (Testo SubRip). Il formato predefinito è WebVTT (Web Video Text Tracks). Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedere Formato di output della didascalia. -
--quiet: Sopprimere l'output della console, ad eccezione degli errori. -
--profanity OPTION: valori validi: raw, remove, mask. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare . -
--threshold NUMBER: impostare una soglia di risultato parziale stabile. Il valore predefinito è3. Per ulteriori informazioni, consultare i concetti di Ottenere risultati parziali.
Pulire le risorse
È possibile usare il portale Azure o Azure command line interface (CLI) per rimuovere la risorsa Voce creata.
documentazione di Reference | Package (download) | Esempi aggiuntivi in GitHub
Disponibilità
Speech SDK per Objective-C supporta l'ottenimento dei risultati del riconoscimento vocale per la sottotitolazione, ma non abbiamo ancora incluso una guida qui. Selezionare un altro linguaggio di programmazione per iniziare e ottenere informazioni sui concetti oppure vedere i riferimenti e gli esempi di Objective-C collegati dall'inizio di questo articolo.
In questa guida introduttiva si esegue un'app console per creare sottotitoli con il riconoscimento vocale.
Suggerimento
Provare Speech Studio e scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborati in tempo reale o offline.
Suggerimento
Provare Azure Speech in Foundry Tools Toolkit per compilare ed eseguire facilmente esempi di didascalia in Visual Studio Code.
Prerequisiti
- Sottoscrizione Azure. È possibile crearne uno gratuitamente.
- Creare una risorsa Foundry per i Servizi vocali nel portale di Azure.
- Ottenere la chiave e l'area della risorsa Voce. Dopo aver distribuito la risorsa Voce, selezionare Vai alla risorsa per visualizzare e gestire le chiavi.
Configurare l'ambiente
Seguire questa procedura e vedere la guida introduttiva all'interfaccia della riga di comando di Voce per altri requisiti per la piattaforma.
Eseguire il seguente comando .NET CLI per installare la Speech CLI:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLIEseguire i comandi seguenti per configurare la chiave e l'area della risorsa Voce. Sostituire
SUBSCRIPTION-KEYcon la chiave della risorsa di riconoscimento vocale e sostituireREGIONcon l'area della risorsa di riconoscimento vocale.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
È anche necessario installare GStreamer per l'audio di input compresso.
Creare didascalie dal parlato
Con l'interfaccia della riga di comando di Riconoscimento vocale è possibile generare sottotitoli in formato SRT (SubRip Text) e WebVTT (Tracce di testo video Web) da qualsiasi tipo di supporto che contiene audio.
Per riconoscere l'audio da un file e restituire sottotitoli webVtt (vtt) e SRT (srt), seguire questa procedura.
Assicurarsi di avere un file di input denominato
caption.this.mp4nel percorso.Eseguire il comando seguente per restituire le didascalie dal file video:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"Le didascalie SRT e WebVTT vengono restituite nella console, come illustrato di seguito:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Utilizzo e argomenti
Ecco i dettagli sugli argomenti facoltativi del comando precedente:
-
--file caption.this.mp4 --format any: input audio dal file. L'input predefinito è il microfono. Per i file audio compressi, ad esempio MP4, installare GStreamer e vedere Come usare l'audio di input compresso. -
--output vtt file -e--output srt file -: restituisce didascalie WebVTT e SRT nell'output standard. Per altre informazioni sui formati di file di sottotitoli SRT e WebVTT, vedere Formato di output della didascalia. Per ulteriori informazioni sull'--outputargomento, vedere le opzioni di output della riga di comando di Speech. -
@output.each.detailed: restituisce i risultati dell'evento con testo, offset e durata. Per altre informazioni, vedere Ottenere i risultati del riconoscimento vocale. -
--property SpeechServiceResponse_StablePartialResultThreshold=5: È possibile richiedere che il servizio Voce restituisca meno eventi, ma più accurati. In questo esempio, il servizio Voce deve confermare il riconoscimento di una parola almeno cinque volte prima di restituire i risultati parziali. Per ulteriori informazioni, consultare i concetti di Ottenere risultati parziali. -
--profanity masked: è possibile specificare se mascherare, rimuovere o mostrare contenuto volgare nei risultati del riconoscimento. Per altre informazioni, vedere Concetti relativi ai filtri per il contenuto volgare . -
--phrases "Constoso;Jessie;Rehaan": è possibile specificare un elenco di frasi da riconoscere, ad esempio Contoso, Jessie e Rehaan. Per altre informazioni, vedere Migliorare il riconoscimento con l'elenco di frasi.
Pulire le risorse
È possibile usare il portale Azure o Azure command line interface (CLI) per rimuovere la risorsa Voce creata.
documentazione di Reference | Package (download) | Esempi aggiuntivi in GitHub
Disponibilità
Speech SDK per Swift supporta l'ottenimento dei risultati del riconoscimento vocale per la sottotitolazione, ma non è ancora stata inclusa una guida in questo documento. Selezionare un altro linguaggio di programmazione per iniziare e ottenere informazioni sui concetti oppure vedere i riferimenti e gli esempi swift collegati dall'inizio di questo articolo.