Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Documentação de referência | Package (PyPi) | Exemplos adicionais no GitHub
Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.
Dica
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados processados das legendas em tempo real ou offline.
Dica
Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.
Pré-requisitos
- Uma assinatura Azure. Você pode criar um gratuitamente.
- Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
O SDK de Fala para Python está disponível como um módulo Python Package Index (PyPI). O SDK de Fala para Python é compatível com Windows, Linux e macOS.
- Você deve instalar o Microsoft Visual C++ Redistribuível para Visual Studio 2015, 2017, 2019 e 2022 na sua plataforma. Instalar esse pacote pela primeira vez pode exigir uma reinicialização.
- No Linux, você deve usar a arquitetura de destino x64.
- Instale uma versão do Python a partir da 3.10 ou posterior. Primeiro, verifique o guia de instalação do SDK para obter mais requisitos
- Você também deve instalar o GStreamer para áudio de entrada compactado.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar as Ferramentas de Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitua sua chave por uma das chaves do recurso. - Para definir a
SPEECH_REGIONvariável de ambiente, substitua sua região por uma das regiões do recurso. - Para definir a variável de ambiente
ENDPOINT, substituayour-endpointpelo ponto de extremidade real do seu recurso de Fala.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.
Criar legendas com base na fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.
- Baixe ou copie o scenarios/python/console/captioning/ arquivos de exemplo do GitHub para um diretório local.
- Abra um prompt de comando no mesmo diretório que
captioning.py. - Execute este comando para instalar o SDK de Fala:
pip install azure-cognitiveservices-speech - Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Verifique se os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, você deverá alterar os caminhos.Certifique-se de definir as variáveis de ambiente
SPEECH_KEYeSPEECH_REGIONconforme descrito acima. Caso contrário, use os argumentos--keye--region.
Verificar resultados
Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando você usa a opção --offline, os resultados são estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.
Uso e argumentos
Uso: python captioning.py --input <input file>
As opções de conexão incluem:
-
--key: sua chave de recurso do Foundry. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção--key. -
--region REGION: sua região de recurso do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção--region. Exemplos:westus,northeurope
Importante
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone. -
--format FORMAT: use o formato de áudio compactado. Válido somente com--file. Os valores válidos sãoalaw, ,any,flac,mp3,mulaweogg_opus. O valor padrão éany. Para usar umwavarquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.
As opções de idioma incluem:
-
--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: saída de resultados offline. Substitui--realTime. O modo de saída padrão está offline. -
--realTime: saída de resultados em tempo real.
A saída em tempo real inclui os resultados do evento Recognizing. A saída offline padrão é Recognized somente resultados de eventos. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: exibir esta ajuda e parar. -
--output FILE: saída de legendas para ofileespecificado. Esse sinalizador é necessário. -
--srt: gerar legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. -
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para a versão chinesa). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: Quantos MILISSEGUNDOS deve-se atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa orealTimesinalizador. O mínimo é 0,0. O padrão é 1000. -
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. O padrão é 1000. -
--quiet: suprimir a saída do console, exceto erros. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, confira os conceitos de Filtro de profanação. -
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é3. Essa opção só é aplicável quando você usa orealTimesinalizador. Para obter mais informações, confira os conceitos de Obter resultados parciais.
Limpar recursos
Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.
Documentação de referência | Pacote (NuGet) | Amostras adicionais no GitHub
Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.
Dica
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.
Dica
Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.
Pré-requisitos
- Uma assinatura Azure. Você pode criar um gratuitamente.
- Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
O SDK de Fala está disponível como um pacote NuGet e implementa .NET Standard 2.0. Instale o SDK de Fala mais tarde neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos.
Você também deve instalar o GStreamer para áudio de entrada compactado.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar o Foundry Tools. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitua sua chave por uma das chaves do recurso. - Para definir a
SPEECH_REGIONvariável de ambiente, substitua sua região por uma das regiões do recurso. - Para definir a
ENDPOINTvariável de ambiente, substituayour-endpointpelo endpoint real do recurso de Fala.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.
Criar legendas com base na fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.
- Copie os arquivos de exemplo scenarios/csharp/dotnetcore/captioning/ do GitHub. Se você tiver o Git instalado, abra um prompt de comando e execute o
git clonecomando para baixar o repositório de exemplos do SDK de Fala.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git - Abra um prompt de comando e altere para o diretório do projeto.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/ - Crie o projeto com a CLI do .NET.
dotnet build - Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Verifique se os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, você deverá alterar os caminhos.Certifique-se de definir as variáveis de ambiente
SPEECH_KEYeSPEECH_REGION, conforme descrito acima. Caso contrário, use os argumentos--keye--region.
Verificar resultados
Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Ao usar a opção --offline, os resultados se mantêm estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.
Uso e argumentos
Uso: captioning --input <input file>
As opções de conexão incluem:
-
--key: sua chave de recurso do Foundry. Sobrescreve a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção--key. -
--region REGION: sua região de recursos do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção--region. Exemplos:westus,northeurope
Importante
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone. -
--format FORMAT: use o formato de áudio compactado. Válido somente com--file. Os valores válidos sãoalaw, ,any,flac,mp3,mulaweogg_opus. O valor padrão éany. Para usar umwavarquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.
As opções de idioma incluem:
-
--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: Produza resultados offline. Substitui--realTime. O modo de saída padrão está offline. -
--realTime: Exibir resultados em tempo real.
A saída em tempo real inclui resultados de eventos Recognizing. A saída padrão offline é somente os resultados de eventos Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com uma lista de frases.
As opções de saída incluem:
-
--help: exibir esta ajuda e parar. -
--output FILE: saída de legendas para ofileespecificado. Esse sinalizador é necessário. -
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. -
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para configurações chinesas). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: quantos milissegundos a exibição de cada legenda deve ser atrasada para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa orealTimesinalizador. O mínimo é 0,0. Padrão é 1000. -
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. Padrão é 1000. -
--quiet: suprimir a saída do console, exceto erros. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de linguagem imprópria. -
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é3. Essa opção só é aplicável quando você usa orealTimesinalizador. Para obter mais informações, consulte o conceito de obtenção de resultados parciais.
Limpar recursos
Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.
Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte da biblioteca
Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.
Dica
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.
Dica
Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.
Pré-requisitos
- Uma assinatura Azure. Você pode criar um gratuitamente.
- Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
Antes de fazer qualquer coisa, você precisa instalar o SDK de Fala para JavaScript. Se você quiser apenas que o nome do pacote seja instalado, execute npm install microsoft-cognitiveservices-speech-sdk. Para obter instruções de instalação guiadas, consulte o guia de instalação do SDK.
Criar legendas com base na fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.
Copie os scenarios/javascript/node/captioning/ do GitHub para o diretório do seu projeto.
Abra um prompt de comando no mesmo diretório que
Captioning.js.Instale o SDK de Fala para JavaScript:
npm install microsoft-cognitiveservices-speech-sdkExecute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Substitua
YourSpeechResoureKeypela sua chave de recurso de Fala, e substituaYourServiceRegionpela sua região de recurso de Fala, comowestusounortheurope. Verifique se os caminhos especificados por--inpute--outputsão válidos. Caso contrário, você deverá alterar os caminhos.Nota
O SDK de Fala para JavaScript não dá suporte a áudio de entrada compactado. Você deve usar um arquivo WAV, conforme mostrado no exemplo.
Importante
Lembre-se de remover a chave do código quando terminar e nunca postá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como Azure Key Vault. Consulte o artigo de segurança das Ferramentas Foundry para obter mais informações.
Verificar resultados
O arquivo de saída com legendas completas é gravado em caption.output.txt. Os resultados intermediários são mostrados no console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.
Uso e argumentos
Uso: node captioning.js --key <key> --region <region> --input <input file>
As opções de conexão incluem:
-
--key: sua chave de recurso do Foundry. -
--region REGION: sua região de recursos do Foundry. Exemplos:westus,northeurope
As opções de entrada incluem:
-
--input FILE: entrada de áudio a partir de arquivo. A entrada padrão é o microfone. -
--format FORMAT: use o formato de áudio compactado. Válido somente com--file. Os valores válidos sãoalaw, ,any,flac,mp3,mulaweogg_opus. O valor padrão éany. Para usar umwavarquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.
As opções de idioma incluem:
-
--languages LANG1,LANG2: habilite a identificação de idiomas para idiomas especificados. Por exemplo:en-US,ja-JP. Essa opção só está disponível com os exemplos de legendas C++, C#e Python. Para obter mais informações, consulte Identificação de idioma.
As opções de reconhecimento incluem:
-
--recognizing: Gerar resultados do eventoRecognizing. A saída padrão é somente os resultados do eventoRecognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A--quietopção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para obter mais informações, confira Aprimorar o reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: exibir esta ajuda e parar. -
--output FILE: saída de legendas para ofileespecificado. Esse sinalizador é necessário. -
--srt: Exportar legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. -
--quiet: suprime a saída do console, exceto os erros. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de palavrões. -
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é3. Para obter mais informações, confira os conceitos de Obter resultados parciais.
Limpar recursos
Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.
Documentação de referência | Exemplos adicionais no GitHub
Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.
Dica
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.
Dica
Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.
Pré-requisitos
- Uma assinatura Azure. Você pode criar um gratuitamente.
- Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
Antes de fazer qualquer coisa, você precisa instalar o SDK de Fala. O exemplo neste início rápido funciona com o Microsoft Build do OpenJDK 17
- Instale o Apache Maven. Em seguida, execute
mvn -vpara confirmar a instalação bem-sucedida. - Crie um novo
pom.xmlarquivo na raiz do projeto e copie o seguinte para ele:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project> - Instale o SDK de Fala e as dependências.
mvn clean dependency:copy-dependencies - Você também deve instalar o GStreamer para áudio de entrada compactado.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar o Foundry Tools. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitua sua chave por uma das chaves do recurso. - Para definir a
SPEECH_REGIONvariável de ambiente, substitua sua região por uma das regiões do recurso. - Para definir a
ENDPOINTvariável de ambiente, substituayour-endpointpelo endpoint real do recurso de Fala.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.
Criar legendas com base na fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.
- Copie os scenarios/java/jre/captioning/ arquivos de exemplo do GitHub para o diretório do seu projeto. O
pom.xmlarquivo que você criou na configuração do ambiente também deve estar nesse diretório. - Abra um prompt de comando e execute este comando para compilar os arquivos do projeto.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8 - Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Verifique se os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, você deverá alterar os caminhos.Certifique-se de definir as variáveis de ambiente
SPEECH_KEYeSPEECH_REGION, conforme descrito acima. Caso contrário, use os argumentos--keye--region.
Verificar resultados
Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Ao usar a opção --offline, os resultados se mantêm estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.
Uso e argumentos
Uso: java -cp ".;target\dependency\*" Captioning --input <input file>
As opções de conexão incluem:
-
--key: sua chave de recurso do Foundry. Sobrescreve a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção--key. -
--region REGION: sua região de recursos do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção--region. Exemplos:westus,northeurope
Importante
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone. -
--format FORMAT: use o formato de áudio compactado. Válido somente com--file. Os valores válidos sãoalaw, ,any,flac,mp3,mulaweogg_opus. O valor padrão éany. Para usar umwavarquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.
As opções de idioma incluem:
-
--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: Produza resultados offline. Substitui--realTime. O modo de saída padrão está offline. -
--realTime: Exibir resultados em tempo real.
A saída em tempo real inclui resultados de eventos Recognizing. A saída padrão offline é somente os resultados de eventos Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com uma lista de frases.
As opções de saída incluem:
-
--help: exibir esta ajuda e parar. -
--output FILE: saída de legendas para ofileespecificado. Esse sinalizador é necessário. -
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. -
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para configurações chinesas). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: quantos milissegundos a exibição de cada legenda deve ser atrasada para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa orealTimesinalizador. O mínimo é 0,0. Padrão é 1000. -
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. Padrão é 1000. -
--quiet: suprimir a saída do console, exceto erros. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de linguagem imprópria. -
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é3. Essa opção só é aplicável quando você usa orealTimesinalizador. Para obter mais informações, consulte o conceito de obtenção de resultados parciais.
Limpar recursos
Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.
Documentação de referência | Pacote (NuGet) | Amostras adicionais no GitHub
Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.
Dica
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.
Dica
Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.
Pré-requisitos
- Uma assinatura Azure. Você pode criar um gratuitamente.
- Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
O SDK de Fala está disponível como um pacote NuGet e implementa .NET Standard 2.0. Instale o SDK de Fala mais adiante neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos
Você também deve instalar o GStreamer para áudio de entrada compactado.
Definir variáveis de ambiente
Você precisa autenticar seu aplicativo para acessar o Foundry Tools. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.
Importante
Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitua sua chave por uma das chaves do recurso. - Para definir a
SPEECH_REGIONvariável de ambiente, substitua sua região por uma das regiões do recurso. - Para definir a
ENDPOINTvariável de ambiente, substituayour-endpointpelo endpoint real do recurso de Fala.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.
Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.
Criar legendas com base na fala
Siga essas etapas para criar e executar o exemplo de código de início rápido de legendagem com o Visual Studio Community 2022 no Windows.
Baixe ou copie os arquivos de exemplo scenarios/cpp/windows/captioning/ do GitHub em um diretório local.
Abra o arquivo de solução
captioning.slnno Visual Studio Community 2022.Instale o SDK de Fala em seu projeto com o gerenciador de pacotes NuGet.
Install-Package Microsoft.CognitiveServices.SpeechAbra Projeto>Propriedades>Geral. Definir Configuração como
All configurations. Defina o Padrão de Linguagem C++ comoISO C++17 Standard (/std:c++17).Abra Build>Gerenciador de Configurações.
- Em uma instalação de Windows de 64 bits, defina a plataforma de solução Active como
x64. - Em uma instalação de Windows de 32 bits, defina a plataforma de solução Active como
x86.
- Em uma instalação de Windows de 64 bits, defina a plataforma de solução Active como
Abra Projeto>Propriedades>Depuração. Insira seus argumentos de linha de comando preferenciais em Argumentos de Comando. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Verifique se os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, você precisará alterar os caminhos.Certifique-se de definir as variáveis de ambiente
SPEECH_KEYeSPEECH_REGION, conforme descrito acima. Caso contrário, use os argumentos--keye--region.Crie e execute o aplicativo de console.
Verificar resultados
Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Ao usar a opção --offline, os resultados se mantêm estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.
Uso e argumentos
Uso: captioning --input <input file>
As opções de conexão incluem:
-
--key: Sua chave de recurso do Foundry. Sobrescreve a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção--key. -
--region REGION: A sua região de recursos do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção--region. Exemplos:westus,northeurope
Importante
Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.
Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone. -
--format FORMAT: use o formato de áudio compactado. Válido somente com--file. Os valores válidos sãoalaw, ,any,flac,mp3,mulaweogg_opus. O valor padrão éany. Para usar umwavarquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.
As opções de idioma incluem:
-
--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: Produza resultados offline. Substitui--realTime. O modo de saída padrão está offline. -
--realTime: Exibir resultados em tempo real.
A saída em tempo real inclui resultados de eventos Recognizing. A saída padrão offline é somente os resultados de eventos Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para obter mais informações, consulte Aprimore o reconhecimento com uma lista de frases.
As opções de saída incluem:
-
--help: exibir esta ajuda e parar. -
--output FILE: saída de legendas para ofileespecificado. Esse sinalizador é necessário. -
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. -
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para configurações chinesas). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: quantos milissegundos a exibição de cada legenda deve ser atrasada para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa orealTimesinalizador. O mínimo é 0,0. O padrão é 1000. -
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. Padrão é 1000. -
--quiet: suprime a saída do console, exceto os erros. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de palavrões. -
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é3. Essa opção só é aplicável quando você usa orealTimesinalizador. Para obter mais informações, consulte os conceitos de Obter resultados parciais.
Limpar recursos
Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.
Documentação de referência | Pacote (Go) | Amostras adicionais no GitHub
Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.
Dica
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados processados das legendas em tempo real ou offline.
Dica
Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.
Pré-requisitos
- Uma assinatura Azure. Você pode criar um gratuitamente.
- Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
Verifique se há etapas de instalação específicas da plataforma.
Você também deve instalar o GStreamer para áudio de entrada compactado.
Criar legendas com base na fala
Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.
Baixe ou copie os arquivos de exemplo scenarios/go/captioning/ do GitHub em um diretório local.
Abra um prompt de comando no mesmo diretório que
captioning.go.Execute os seguintes comandos para criar um arquivo
go.modque se vincule aos componentes do SDK de Fala hospedados no GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-goConstrua o módulo GO.
go buildExecute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Substitua
YourSpeechResoureKeypela sua chave de recurso de Fala, e substituaYourServiceRegionpela sua região de recurso de Fala, comowestusounortheurope. Verifique se os caminhos especificados por--inpute--outputsão válidos. Caso contrário, você deverá alterar os caminhos.Importante
Lembre-se de remover a chave do código quando terminar e nunca postá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como Azure Key Vault. Consulte o artigo de segurança das Ferramentas Foundry para obter mais informações.
Verificar resultados
O arquivo de saída com legendas completas é gravado em caption.output.txt. Os resultados intermediários são mostrados no console:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.
Uso e argumentos
Uso: go run captioning.go helper.go --key <key> --region <region> --input <input file>
As opções de conexão incluem:
-
--key: sua chave de recurso do Foundry. -
--region REGION: sua região de recursos do Foundry. Exemplos:westus,northeurope
As opções de entrada incluem:
-
--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone. -
--format FORMAT: use o formato de áudio compactado. Válido somente com--file. Os valores válidos sãoalaw, ,any,flac,mp3,mulaweogg_opus. O valor padrão éany. Para usar umwavarquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.
As opções de idioma incluem:
-
--languages LANG1,LANG2: habilite a identificação de idiomas para idiomas especificados. Por exemplo:en-US,ja-JP. Essa opção só está disponível com os exemplos de legendas C++, C#e Python. Para obter mais informações, consulte Identificação de idioma.
As opções de reconhecimento incluem:
-
--recognizing: Exibir os resultados do eventoRecognizing. A saída padrão é somente os resultados do eventoRecognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A--quietopção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com uma lista de frases.
As opções de saída incluem:
-
--help: exibir esta ajuda e parar. -
--output FILE: saída de legendas para ofileespecificado. Esse sinalizador é necessário. -
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. -
--quiet: suprimir a saída do console, exceto erros. -
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de linguagem imprópria. -
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é3. Para obter mais informações, consulte o conceito de obtenção de resultados parciais.
Limpar recursos
Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.
Documentação de referência | Pacote (download) | Amostras adicionais no GitHub
Disponibilidade
O SDK de Fala para Objective-C dá suporte à obtenção de resultados de reconhecimento de fala para legendagem, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos ou veja a referência Objective-C e os exemplos vinculados desde o início deste artigo.
Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.
Dica
Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados processados das legendas em tempo real ou offline.
Dica
Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.
Pré-requisitos
- Uma assinatura Azure. Você pode criar um gratuitamente.
- Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.
Configurar o ambiente
Siga estas etapas e consulte o início rápido da CLI de Fala para obter outros requisitos para sua plataforma.
Execute o seguinte comando .NET CLI para instalar a CLI de Fala:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLIExecute os seguintes comandos para configurar sua região e chave de recurso de Serviço Cognitivo do Azure para Fala. Substitua
SUBSCRIPTION-KEYpela sua chave do recurso de Fala e substituaREGIONpela sua região do recurso de Fala.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Você também deve instalar o GStreamer para áudio de entrada compactado.
Criar legendas a partir da fala
Com a CLI de Fala, você pode emitir legendas SRT (Texto SubRip) e WebVTT (Web Video Text Tracks) de qualquer tipo de mídia que contenha áudio.
Para reconhecer áudio de um arquivo e gerar legendas nos formatos WebVtt (vtt) e SRT (srt), siga estas etapas.
Verifique se você tem um arquivo de entrada nomeado
caption.this.mp4no caminho.Execute o seguinte comando para gerar legendas do arquivo de vídeo:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"As legendas SRT e WebVTT são exibidas no console, conforme mostrado aqui.
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Uso e argumentos
Aqui estão detalhes sobre os argumentos opcionais do comando anterior:
-
--file caption.this.mp4 --format any: entrada de áudio de arquivo. A entrada padrão é o microfone. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado. -
--output vtt file -e--output srt file -: gera legendas WebVTT e SRT para a saída padrão. Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. Para obter mais informações sobre o argumento, consulte as--outputopções de saída da CLI de Fala. -
@output.each.detailed: saída de resultados de eventos com texto, deslocamento e duração. Para obter mais informações, consulte Obter resultados de reconhecimento de fala. -
--property SpeechServiceResponse_StablePartialResultThreshold=5: você pode solicitar que o serviço de Fala retorne menosRecognizingeventos, porém mais precisos. Neste exemplo, o serviço de Fala precisa afirmar o reconhecimento de uma palavra pelo menos cinco vezes antes de retornar os resultados parciais para você. Para obter mais informações, consulte o conceito de Obter resultados parciais. -
--profanity masked: você pode especificar se deseja mascarar, remover ou mostrar palavrões nos resultados do reconhecimento. Para obter mais informações, consulte os conceitos do filtro de palavras ofensivas. -
--phrases "Constoso;Jessie;Rehaan": você pode especificar uma lista de frases a serem reconhecidas, como Contoso, Jessie e Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.
Limpar recursos
Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.
Documentação de referência | Pacote (download) | Amostras adicionais no GitHub
Disponibilidade
O SDK de Fala para Swift dá suporte à obtenção de resultados de reconhecimento de fala para legendas, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos ou veja a referência swift e os exemplos vinculados desde o início deste artigo.