Guia de início rápido para criar legendas com conversão de fala em texto – Serviço de Fala - Foundry Tools

Documentação de referência | Package (PyPi) | Exemplos adicionais no GitHub

Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.

Dica

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados processados das legendas em tempo real ou offline.

Dica

Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.

Pré-requisitos

Uma assinatura Azure. Você pode criar um gratuitamente.
Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

O SDK de Fala para Python está disponível como um módulo Python Package Index (PyPI). O SDK de Fala para Python é compatível com Windows, Linux e macOS.

Você deve instalar o Microsoft Visual C++ Redistribuível para Visual Studio 2015, 2017, 2019 e 2022 na sua plataforma. Instalar esse pacote pela primeira vez pode exigir uma reinicialização.
No Linux, você deve usar a arquitetura de destino x64.

Instale uma versão do Python a partir da 3.10 ou posterior. Primeiro, verifique o guia de instalação do SDK para obter mais requisitos
Você também deve instalar o GStreamer para áudio de entrada compactado.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar as Ferramentas de Foundry. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a SPEECH_KEY variável de ambiente, substitua sua chave por uma das chaves do recurso.
Para definir a SPEECH_REGION variável de ambiente, substitua sua região por uma das regiões do recurso.
Para definir a variável de ambiente ENDPOINT, substitua your-endpoint pelo ponto de extremidade real do seu recurso de Fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para tornar as alterações efetivas.

Bash

Edite seu arquivo de .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para tornar as alterações efetivas.

Xcode

Para desenvolvimento de iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecionar produto>Esquema>Editar esquema.
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente , selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY o Nome e insira sua chave de recurso de Fala para o Valor.

Para definir a variável de ambiente para sua região de recurso de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Criar legendas com base na fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.

Baixe ou copie o scenarios/python/console/captioning/ arquivos de exemplo do GitHub para um diretório local.
Abra um prompt de comando no mesmo diretório que captioning.py.
Execute este comando para instalar o SDK de Fala:
```
pip install azure-cognitiveservices-speech
```
Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
```
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Verifique se os caminhos especificados por --input e --output são válidos. Caso contrário, você deverá alterar os caminhos.

Certifique-se de definir as variáveis de ambiente SPEECH_KEY e SPEECH_REGION conforme descrito acima. Caso contrário, use os argumentos --key e --region.

Verificar resultados

Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando você usa a opção --offline, os resultados são estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.

Uso e argumentos

Uso: python captioning.py --input <input file>

As opções de conexão incluem:

--key: sua chave de recurso do Foundry. Substitui a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção --key .
--region REGION: sua região de recurso do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção --region . Exemplos: westus, northeurope

Importante

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

As opções de entrada incluem:

--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone.
--format FORMAT: use o formato de áudio compactado. Válido somente com --file. Os valores válidos são alaw, , any, flac, mp3, mulawe ogg_opus. O valor padrão é any. Para usar um wav arquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.

As opções de idioma incluem:

--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão é en-US.

As opções de reconhecimento incluem:

--offline: saída de resultados offline. Substitui --realTime. O modo de saída padrão está offline.
--realTime: saída de resultados em tempo real.

A saída em tempo real inclui os resultados do evento Recognizing. A saída offline padrão é Recognized somente resultados de eventos. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

As opções de saída incluem:

--help: exibir esta ajuda e parar.
--output FILE: saída de legendas para o fileespecificado. Esse sinalizador é necessário.
--srt: gerar legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda.
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para a versão chinesa).
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
--delay MILLISECONDS: Quantos MILISSEGUNDOS deve-se atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. O padrão é 1000.
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
--quiet: suprimir a saída do console, exceto erros.
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, confira os conceitos de Filtro de profanação.
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é 3. Essa opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, confira os conceitos de Obter resultados parciais.

Limpar recursos

Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.

Documentação de referência | Pacote (NuGet) | Amostras adicionais no GitHub

Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.

Dica

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.

Dica

Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.

Pré-requisitos

Uma assinatura Azure. Você pode criar um gratuitamente.
Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

O SDK de Fala está disponível como um pacote NuGet e implementa .NET Standard 2.0. Instale o SDK de Fala mais tarde neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos.

Você também deve instalar o GStreamer para áudio de entrada compactado.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar o Foundry Tools. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a SPEECH_KEY variável de ambiente, substitua sua chave por uma das chaves do recurso.
Para definir a SPEECH_REGION variável de ambiente, substitua sua região por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo endpoint real do recurso de Fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para tornar as alterações efetivas.

Bash

Edite seu arquivo de .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para tornar as alterações efetivas.

Xcode

Para desenvolvimento de iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecionar produto>Esquema>Editar esquema.
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente , selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY o Nome e insira sua chave de recurso de Fala para o Valor.

Para definir a variável de ambiente para sua região de recurso de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Criar legendas com base na fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.

Copie os arquivos de exemplo scenarios/csharp/dotnetcore/captioning/ do GitHub. Se você tiver o Git instalado, abra um prompt de comando e execute o git clone comando para baixar o repositório de exemplos do SDK de Fala.
```
git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
```

Abra um prompt de comando e altere para o diretório do projeto.

cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/

Crie o projeto com a CLI do .NET.
```
dotnet build
```
Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
```
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Verifique se os caminhos especificados por --input e --output são válidos. Caso contrário, você deverá alterar os caminhos.

Certifique-se de definir as variáveis de ambiente SPEECH_KEY e SPEECH_REGION, conforme descrito acima. Caso contrário, use os argumentos --key e --region.

Verificar resultados

Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ao usar a opção --offline, os resultados se mantêm estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.

Uso e argumentos

Uso: captioning --input <input file>

As opções de conexão incluem:

--key: sua chave de recurso do Foundry. Sobrescreve a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção --key .
--region REGION: sua região de recursos do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção --region . Exemplos: westus, northeurope

Importante

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

As opções de entrada incluem:

--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone.
--format FORMAT: use o formato de áudio compactado. Válido somente com --file. Os valores válidos são alaw, , any, flac, mp3, mulawe ogg_opus. O valor padrão é any. Para usar um wav arquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.

As opções de idioma incluem:

--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão é en-US.

As opções de reconhecimento incluem:

--offline: Produza resultados offline. Substitui --realTime. O modo de saída padrão está offline.
--realTime: Exibir resultados em tempo real.

A saída em tempo real inclui resultados de eventos Recognizing. A saída padrão offline é somente os resultados de eventos Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com uma lista de frases.

As opções de saída incluem:

--help: exibir esta ajuda e parar.
--output FILE: saída de legendas para o fileespecificado. Esse sinalizador é necessário.
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda.
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para configurações chinesas).
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
--delay MILLISECONDS: quantos milissegundos a exibição de cada legenda deve ser atrasada para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. Padrão é 1000.
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. Padrão é 1000.
--quiet: suprimir a saída do console, exceto erros.
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de linguagem imprópria.
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é 3. Essa opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, consulte o conceito de obtenção de resultados parciais.

Limpar recursos

Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.

Documentação de referência | Pacote (npm) | Amostras adicionais no GitHub | Código-fonte da biblioteca

Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.

Dica

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.

Dica

Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.

Pré-requisitos

Uma assinatura Azure. Você pode criar um gratuitamente.
Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

Antes de fazer qualquer coisa, você precisa instalar o SDK de Fala para JavaScript. Se você quiser apenas que o nome do pacote seja instalado, execute npm install microsoft-cognitiveservices-speech-sdk. Para obter instruções de instalação guiadas, consulte o guia de instalação do SDK.

Criar legendas com base na fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.

Copie os scenarios/javascript/node/captioning/ do GitHub para o diretório do seu projeto.
Abra um prompt de comando no mesmo diretório que Captioning.js.

Instale o SDK de Fala para JavaScript:

npm install microsoft-cognitiveservices-speech-sdk

Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
```
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Substitua YourSpeechResoureKey pela sua chave de recurso de Fala, e substitua YourServiceRegion pela sua região de recurso de Fala, como westus ou northeurope. Verifique se os caminhos especificados por --input e --output são válidos. Caso contrário, você deverá alterar os caminhos.

Nota

O SDK de Fala para JavaScript não dá suporte a áudio de entrada compactado. Você deve usar um arquivo WAV, conforme mostrado no exemplo.

Importante

Lembre-se de remover a chave do código quando terminar e nunca postá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como Azure Key Vault. Consulte o artigo de segurança das Ferramentas Foundry para obter mais informações.

Verificar resultados

O arquivo de saída com legendas completas é gravado em caption.output.txt. Os resultados intermediários são mostrados no console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.

Uso e argumentos

Uso: node captioning.js --key <key> --region <region> --input <input file>

As opções de conexão incluem:

--key: sua chave de recurso do Foundry.
--region REGION: sua região de recursos do Foundry. Exemplos: westus, northeurope

As opções de entrada incluem:

--input FILE: entrada de áudio a partir de arquivo. A entrada padrão é o microfone.
--format FORMAT: use o formato de áudio compactado. Válido somente com --file. Os valores válidos são alaw, , any, flac, mp3, mulawe ogg_opus. O valor padrão é any. Para usar um wav arquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.

As opções de idioma incluem:

--languages LANG1,LANG2: habilite a identificação de idiomas para idiomas especificados. Por exemplo: en-US,ja-JP. Essa opção só está disponível com os exemplos de legendas C++, C#e Python. Para obter mais informações, consulte Identificação de idioma.

As opções de reconhecimento incluem:

--recognizing: Gerar resultados do evento Recognizing. A saída padrão é somente os resultados do evento Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, confira Aprimorar o reconhecimento com a lista de frases.

As opções de saída incluem:

--help: exibir esta ajuda e parar.
--output FILE: saída de legendas para o fileespecificado. Esse sinalizador é necessário.
--srt: Exportar legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda.
--quiet: suprime a saída do console, exceto os erros.
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de palavrões.
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é 3. Para obter mais informações, confira os conceitos de Obter resultados parciais.

Limpar recursos

Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.

Documentação de referência | Exemplos adicionais no GitHub

Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.

Dica

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.

Dica

Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.

Pré-requisitos

Uma assinatura Azure. Você pode criar um gratuitamente.
Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

Antes de fazer qualquer coisa, você precisa instalar o SDK de Fala. O exemplo neste início rápido funciona com o Microsoft Build do OpenJDK 17

Instale o Apache Maven. Em seguida, execute mvn -v para confirmar a instalação bem-sucedida.

Crie um novo pom.xml arquivo na raiz do projeto e copie o seguinte para ele:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.43.0</version>
        </dependency>
    </dependencies>
</project>

Instale o SDK de Fala e as dependências.
```
mvn clean dependency:copy-dependencies
```
Você também deve instalar o GStreamer para áudio de entrada compactado.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar o Foundry Tools. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a SPEECH_KEY variável de ambiente, substitua sua chave por uma das chaves do recurso.
Para definir a SPEECH_REGION variável de ambiente, substitua sua região por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo endpoint real do recurso de Fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para tornar as alterações efetivas.

Bash

Edite seu arquivo de .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para tornar as alterações efetivas.

Xcode

Para desenvolvimento de iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecione>Produto>Esquema Editar esquema.
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente , selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY para o Nome e insira sua chave de recurso de Fala para o Valor.

Para definir a variável de ambiente para sua região de recurso de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Criar legendas com base na fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.

Copie os scenarios/java/jre/captioning/ arquivos de exemplo do GitHub para o diretório do seu projeto. O pom.xml arquivo que você criou na configuração do ambiente também deve estar nesse diretório.
Abra um prompt de comando e execute este comando para compilar os arquivos do projeto.
```
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
```
Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
```
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Verifique se os caminhos especificados por --input e --output são válidos. Caso contrário, você deverá alterar os caminhos.

Certifique-se de definir as variáveis de ambiente SPEECH_KEY e SPEECH_REGION, conforme descrito acima. Caso contrário, use os argumentos --key e --region.

Verificar resultados

Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ao usar a opção --offline, os resultados se mantêm estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.

Uso e argumentos

Uso: java -cp ".;target\dependency\*" Captioning --input <input file>

As opções de conexão incluem:

--key: sua chave de recurso do Foundry. Sobrescreve a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção --key .
--region REGION: sua região de recursos do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção --region . Exemplos: westus, northeurope

Importante

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

As opções de entrada incluem:

--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone.
--format FORMAT: use o formato de áudio compactado. Válido somente com --file. Os valores válidos são alaw, , any, flac, mp3, mulawe ogg_opus. O valor padrão é any. Para usar um wav arquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.

As opções de idioma incluem:

--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão é en-US.

As opções de reconhecimento incluem:

--offline: Produza resultados offline. Substitui --realTime. O modo de saída padrão está offline.
--realTime: Exibir resultados em tempo real.

A saída em tempo real inclui resultados de eventos Recognizing. A saída padrão offline é somente os resultados de eventos Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com uma lista de frases.

As opções de saída incluem:

--help: exibir esta ajuda e parar.
--output FILE: saída de legendas para o fileespecificado. Esse sinalizador é necessário.
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda.
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para configurações chinesas).
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
--delay MILLISECONDS: quantos milissegundos a exibição de cada legenda deve ser atrasada para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. Padrão é 1000.
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. Padrão é 1000.
--quiet: suprimir a saída do console, exceto erros.
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de linguagem imprópria.
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é 3. Essa opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, consulte o conceito de obtenção de resultados parciais.

Limpar recursos

Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.

Documentação de referência | Pacote (NuGet) | Amostras adicionais no GitHub

Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.

Dica

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados das legendas processados em tempo real ou offline.

Dica

Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.

Pré-requisitos

Uma assinatura Azure. Você pode criar um gratuitamente.
Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

O SDK de Fala está disponível como um pacote NuGet e implementa .NET Standard 2.0. Instale o SDK de Fala mais adiante neste guia, mas primeiro verifique o guia de instalação do SDK para obter mais requisitos

Você também deve instalar o GStreamer para áudio de entrada compactado.

Definir variáveis de ambiente

Você precisa autenticar seu aplicativo para acessar o Foundry Tools. Este artigo mostra como usar variáveis de ambiente para armazenar suas credenciais. Em seguida, você pode acessar as variáveis de ambiente do código para autenticar seu aplicativo. Para produção, use uma maneira mais segura de armazenar e acessar suas credenciais.

Importante

Recomendamos a autenticação Microsoft Entra ID com identidades gerenciadas para os recursos Azure para evitar armazenar credenciais nos seus aplicativos que são executados na nuvem.

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se estiver usando chaves de API, armazene-as com segurança em Azure Key Vault, gire as chaves regularmente e restrinja o acesso a Azure Key Vault usando controle de acesso baseado em função e restrições de acesso à rede. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

Para definir as variáveis de ambiente para sua chave de recurso de Fala e região, abra uma janela do console e siga as instruções para seu sistema operacional e ambiente de desenvolvimento.

Para definir a SPEECH_KEY variável de ambiente, substitua sua chave por uma das chaves do recurso.
Para definir a SPEECH_REGION variável de ambiente, substitua sua região por uma das regiões do recurso.
Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo endpoint real do recurso de Fala.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se você só precisar acessar as variáveis de ambiente no console atual, poderá definir a variável de ambiente com set em vez de setx.

Depois de adicionar as variáveis de ambiente, talvez seja necessário reiniciar todos os programas que precisam ler as variáveis de ambiente, incluindo a janela do console. Por exemplo, se você estiver usando Visual Studio como editor, reinicie Visual Studio antes de executar o exemplo.

Bash

Edite seu arquivo .bashrc e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bashrc na janela do console para tornar as alterações efetivas.

Bash

Edite seu arquivo de .bash_profile e adicione as variáveis de ambiente:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

Depois de adicionar as variáveis de ambiente, execute source ~/.bash_profile na janela do console para tornar as alterações efetivas.

Xcode

Para desenvolvimento de iOS e macOS, defina as variáveis de ambiente no Xcode. Por exemplo, siga estas etapas para definir a variável de ambiente no Xcode 13.4.1.

Selecionar produto>Esquema>Editar esquema.
Selecione Argumentos na página Executar (Execução de Depuração).
Em Variáveis de Ambiente , selecione o sinal de adição (+) para adicionar uma nova variável de ambiente.
Insira SPEECH_KEY o Nome e insira sua chave de recurso de Fala para o Valor.

Para definir a variável de ambiente para sua região de recurso de Fala, siga as mesmas etapas. Defina SPEECH_REGION para a região do recurso. Por exemplo, westus. Definir ENDPOINT como o ponto de extremidade do recurso

Para obter mais opções de configuração, consulte a documentação do Xcode.

Criar legendas com base na fala

Siga essas etapas para criar e executar o exemplo de código de início rápido de legendagem com o Visual Studio Community 2022 no Windows.

Baixe ou copie os arquivos de exemplo scenarios/cpp/windows/captioning/ do GitHub em um diretório local.
Abra o arquivo de solução captioning.sln no Visual Studio Community 2022.
Instale o SDK de Fala em seu projeto com o gerenciador de pacotes NuGet.
```
Install-Package Microsoft.CognitiveServices.Speech
```
Abra Projeto>Propriedades>Geral. Definir Configuração como All configurations. Defina o Padrão de Linguagem C++ como ISO C++17 Standard (/std:c++17).
Abra Build>Gerenciador de Configurações.
- Em uma instalação de Windows de 64 bits, defina a plataforma de solução Active como x64.
- Em uma instalação de Windows de 32 bits, defina a plataforma de solução Active como x86.
Abra Projeto>Propriedades>Depuração. Insira seus argumentos de linha de comando preferenciais em Argumentos de Comando. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
```
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Importante

Verifique se os caminhos especificados por --input e --output são válidos. Caso contrário, você precisará alterar os caminhos.

Certifique-se de definir as variáveis de ambiente SPEECH_KEY e SPEECH_REGION, conforme descrito acima. Caso contrário, use os argumentos --key e --region.
Crie e execute o aplicativo de console.

Verificar resultados

Quando você usa a opção realTime no exemplo acima, os resultados parciais dos Recognizing eventos são incluídos na saída. Neste exemplo, somente o evento final Recognized inclui as vírgulas. Vírgulas não são as únicas diferenças entre Recognizing eventos e Recognized eventos. Para obter mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ao usar a opção --offline, os resultados se mantêm estáveis a partir do evento final Recognized. Os resultados parciais não estão incluídos na saída:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.

Uso e argumentos

Uso: captioning --input <input file>

As opções de conexão incluem:

--key: Sua chave de recurso do Foundry. Sobrescreve a variável de ambiente SPEECH_KEY. Você deve definir a variável de ambiente (recomendado) ou usar a opção --key .
--region REGION: A sua região de recursos do Foundry. Substitui a variável de ambiente SPEECH_REGION. Você deve definir a variável de ambiente (recomendado) ou usar a opção --region . Exemplos: westus, northeurope

Importante

Use chaves de API com cuidado. Não inclua a chave de API diretamente em seu código e nunca a publique publicamente. Se você usar uma chave de API, armazene-a com segurança em Azure Key Vault. Para obter mais informações sobre como usar chaves de API com segurança em seus aplicativos, consulte as chaves API com Azure Key Vault.

Para obter mais informações sobre a segurança dos serviços de IA, consulte Autenticar solicitações para Serviços de IA do Azure.

As opções de entrada incluem:

--input FILE: Entrada de áudio do arquivo. A entrada padrão é o microfone.
--format FORMAT: use o formato de áudio compactado. Válido somente com --file. Os valores válidos são alaw, , any, flac, mp3, mulawe ogg_opus. O valor padrão é any. Para usar um wav arquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.

As opções de idioma incluem:

--language LANG: especifique um idioma usando uma das localidades correspondentes com suporte. Isso é usado ao dividir legendas em linhas. O valor padrão é en-US.

As opções de reconhecimento incluem:

--offline: Produza resultados offline. Substitui --realTime. O modo de saída padrão está offline.
--realTime: Exibir resultados em tempo real.

A saída em tempo real inclui resultados de eventos Recognizing. A saída padrão offline é somente os resultados de eventos Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Aprimore o reconhecimento com uma lista de frases.

As opções de saída incluem:

--help: exibir esta ajuda e parar.
--output FILE: saída de legendas para o fileespecificado. Esse sinalizador é necessário.
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda.
--maxLineLength LENGTH: defina o número máximo de caracteres por linha para uma legenda como LENGTH. O mínimo é 20. O padrão é 37 (30 para configurações chinesas).
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
--delay MILLISECONDS: quantos milissegundos a exibição de cada legenda deve ser atrasada para imitar uma experiência em tempo real. Essa opção só é aplicável quando você usa o realTime sinalizador. O mínimo é 0,0. O padrão é 1000.
--remainTime MILLISECONDS: quantos MILISSEGUNDOS uma legenda deve permanecer na tela se ela não for substituída por outra. O mínimo é 0,0. Padrão é 1000.
--quiet: suprime a saída do console, exceto os erros.
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de palavrões.
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é 3. Essa opção só é aplicável quando você usa o realTime sinalizador. Para obter mais informações, consulte os conceitos de Obter resultados parciais.

Limpar recursos

Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.

Documentação de referência | Pacote (Go) | Amostras adicionais no GitHub

Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.

Dica

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados processados das legendas em tempo real ou offline.

Dica

Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.

Pré-requisitos

Uma assinatura Azure. Você pode criar um gratuitamente.
Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

Verifique se há etapas de instalação específicas da plataforma.

Você também deve instalar o GStreamer para áudio de entrada compactado.

Criar legendas com base na fala

Siga estas etapas para criar e executar o exemplo de código de início rápido de legendagem.

Baixe ou copie os arquivos de exemplo scenarios/go/captioning/ do GitHub em um diretório local.
Abra um prompt de comando no mesmo diretório que captioning.go.
Execute os seguintes comandos para criar um arquivo go.mod que se vincule aos componentes do SDK de Fala hospedados no GitHub:
```
go mod init captioning
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Construa o módulo GO.
```
go build
```
Execute o aplicativo com seus argumentos de linha de comando preferenciais. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
```
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Substitua YourSpeechResoureKey pela sua chave de recurso de Fala, e substitua YourServiceRegion pela sua região de recurso de Fala, como westus ou northeurope. Verifique se os caminhos especificados por --input e --output são válidos. Caso contrário, você deverá alterar os caminhos.

Importante

Lembre-se de remover a chave do código quando terminar e nunca postá-la publicamente. Para produção, use uma maneira segura de armazenar e acessar suas credenciais, como Azure Key Vault. Consulte o artigo de segurança das Ferramentas Foundry para obter mais informações.

Verificar resultados

O arquivo de saída com legendas completas é gravado em caption.output.txt. Os resultados intermediários são mostrados no console:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

O formato de saída do intervalo de horários do SRT (Texto SubRip) é hh:mm:ss,fff. Para obter mais informações, consulte o formato de saída da legenda.

Uso e argumentos

Uso: go run captioning.go helper.go --key <key> --region <region> --input <input file>

As opções de conexão incluem:

--key: sua chave de recurso do Foundry.
--region REGION: sua região de recursos do Foundry. Exemplos: westus, northeurope

As opções de entrada incluem:

--input FILE: entrada de áudio de arquivo. A entrada padrão é o microfone.
--format FORMAT: use o formato de áudio compactado. Válido somente com --file. Os valores válidos são alaw, , any, flac, mp3, mulawe ogg_opus. O valor padrão é any. Para usar um wav arquivo, não especifique o formato. Essa opção não está disponível com o exemplo de legenda de JavaScript. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.

As opções de idioma incluem:

--languages LANG1,LANG2: habilite a identificação de idiomas para idiomas especificados. Por exemplo: en-US,ja-JP. Essa opção só está disponível com os exemplos de legendas C++, C#e Python. Para obter mais informações, consulte Identificação de idioma.

As opções de reconhecimento incluem:

--recognizing: Exibir os resultados do evento Recognizing. A saída padrão é somente os resultados do evento Recognized. Elas são sempre gravadas no console, nunca em um arquivo de saída. A --quiet opção substitui isso. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.

As opções de precisão incluem:

--phrases PHRASE1;PHRASE2: você pode especificar uma lista de frases a serem reconhecidas, como Contoso;Jessie;Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com uma lista de frases.

As opções de saída incluem:

--help: exibir esta ajuda e parar.
--output FILE: saída de legendas para o fileespecificado. Esse sinalizador é necessário.
--srt: saída de legendas no formato SRT (SubRip Text). O formato padrão é WebVTT (Faixas de Texto de Vídeo da Web). Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda.
--quiet: suprimir a saída do console, exceto erros.
--profanity OPTION: valores válidos: raw, remove, mask. Para obter mais informações, consulte os conceitos de filtro de linguagem imprópria.
--threshold NUMBER: defina o limite de resultado parcial estável. O valor padrão é 3. Para obter mais informações, consulte o conceito de obtenção de resultados parciais.

Limpar recursos

Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.

Documentação de referência | Pacote (download) | Amostras adicionais no GitHub

Disponibilidade

O SDK de Fala para Objective-C dá suporte à obtenção de resultados de reconhecimento de fala para legendagem, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos ou veja a referência Objective-C e os exemplos vinculados desde o início deste artigo.

Neste guia de início rápido, você vai executar um aplicativo de console para criar legendas com a conversão de fala em texto.

Dica

Experimente o Speech Studio e escolha um clipe de vídeo de exemplo para ver os resultados processados das legendas em tempo real ou offline.

Dica

Experimente o Azure Speech in Foundry Tools Toolkit para compilar e executar amostras de legendas facilmente em Visual Studio Code.

Pré-requisitos

Uma assinatura Azure. Você pode criar um gratuitamente.
Crie um recurso do Foundry para o Serviço de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves.

Configurar o ambiente

Siga estas etapas e consulte o início rápido da CLI de Fala para obter outros requisitos para sua plataforma.

Execute o seguinte comando .NET CLI para instalar a CLI de Fala:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Execute os seguintes comandos para configurar sua região e chave de recurso de Serviço Cognitivo do Azure para Fala. Substitua SUBSCRIPTION-KEY pela sua chave do recurso de Fala e substitua REGION pela sua região do recurso de Fala.
- Terminal
- Powershell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

Você também deve instalar o GStreamer para áudio de entrada compactado.

Criar legendas a partir da fala

Com a CLI de Fala, você pode emitir legendas SRT (Texto SubRip) e WebVTT (Web Video Text Tracks) de qualquer tipo de mídia que contenha áudio.

Para reconhecer áudio de um arquivo e gerar legendas nos formatos WebVtt (vtt) e SRT (srt), siga estas etapas.

Verifique se você tem um arquivo de entrada nomeado caption.this.mp4 no caminho.

Execute o seguinte comando para gerar legendas do arquivo de vídeo:

spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"

As legendas SRT e WebVTT são exibidas no console, conforme mostrado aqui.

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "561a0ea00cc14bb09bd294357df3270f",
  "Duration": "00:00:03.0500000"
}

Uso e argumentos

Aqui estão detalhes sobre os argumentos opcionais do comando anterior:

--file caption.this.mp4 --format any: entrada de áudio de arquivo. A entrada padrão é o microfone. Para arquivos de áudio compactados, como MP4, instale o GStreamer e veja Como usar áudio de entrada compactado.
--output vtt file - e --output srt file -: gera legendas WebVTT e SRT para a saída padrão. Para obter mais informações sobre os formatos de arquivo de legenda SRT e WebVTT, consulte o formato de saída da legenda. Para obter mais informações sobre o argumento, consulte as --outputopções de saída da CLI de Fala.
@output.each.detailed: saída de resultados de eventos com texto, deslocamento e duração. Para obter mais informações, consulte Obter resultados de reconhecimento de fala.
--property SpeechServiceResponse_StablePartialResultThreshold=5: você pode solicitar que o serviço de Fala retorne menos Recognizing eventos, porém mais precisos. Neste exemplo, o serviço de Fala precisa afirmar o reconhecimento de uma palavra pelo menos cinco vezes antes de retornar os resultados parciais para você. Para obter mais informações, consulte o conceito de Obter resultados parciais.
--profanity masked: você pode especificar se deseja mascarar, remover ou mostrar palavrões nos resultados do reconhecimento. Para obter mais informações, consulte os conceitos do filtro de palavras ofensivas.
--phrases "Constoso;Jessie;Rehaan": você pode especificar uma lista de frases a serem reconhecidas, como Contoso, Jessie e Rehaan. Para obter mais informações, consulte Melhorar o reconhecimento com a lista de frases.

Limpar recursos

Você pode usar o portal Azure ou Azure CLI (Interface de Linha de Comando) para remover o recurso de Fala que você criou.

Documentação de referência | Pacote (download) | Amostras adicionais no GitHub

Disponibilidade

O SDK de Fala para Swift dá suporte à obtenção de resultados de reconhecimento de fala para legendas, mas ainda não incluímos um guia aqui. Selecione outra linguagem de programação para começar e aprender sobre os conceitos ou veja a referência swift e os exemplos vinculados desde o início deste artigo.

Início Rápido: Criar legendas com conversão de fala em texto

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Criar legendas com base na fala

Verificar resultados

Uso e argumentos

Limpar recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Criar legendas com base na fala

Verificar resultados

Uso e argumentos

Limpar recursos

Pré-requisitos

Configurar o ambiente

Criar legendas com base na fala

Verificar resultados

Uso e argumentos

Limpar recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Criar legendas com base na fala

Verificar resultados

Uso e argumentos

Limpar recursos

Pré-requisitos

Configurar o ambiente

Definir variáveis de ambiente

Criar legendas com base na fala

Verificar resultados

Uso e argumentos

Limpar recursos

Pré-requisitos

Configurar o ambiente

Criar legendas com base na fala

Verificar resultados

Uso e argumentos

Limpar recursos

Disponibilidade

Pré-requisitos

Configurar o ambiente

Criar legendas a partir da fala

Uso e argumentos

Limpar recursos

Disponibilidade

Próximas etapas

Comentários

Recursos adicionais