Schnellstart: Erstellen von Untertiteln mit Sprach-zu-Text

Reference-Dokumentation | Package (PyPi) | Additional samples on GitHub

In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.

Tipp

Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.

Tipp

Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.

Voraussetzungen

Einrichten der Umgebung

Das Speech SDK für Python ist als Python Package Index (PyPI)-Modul verfügbar. Das Speech SDK für Python ist mit Windows, Linux und macOS kompatibel.

  1. Installieren Sie eine Version von Python von 3.10 oder höher. Überprüfen Sie zuerst das SDK-Installationshandbuch für weitere Anforderungen.
  2. Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.

Festlegen von Umgebungsvariablen

Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.

Wichtig

Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.

  • Um die Umgebungsvariable festzulegen, ersetzen SPEECH_KEY Schlüssel durch einen der Schlüssel für Ihre Ressource.
  • Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource.
  • Um die Umgebungsvariable ENDPOINT festzulegen, ersetzen Sie your-endpoint durch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Hinweis

Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.

Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.

Erstellen von Untertiteln aus Sprache

Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.

  1. Laden Sie die Beispieldateien aus scenarios/python/console/captioning/ von GitHub in ein lokales Verzeichnis herunter oder kopieren Sie sie.
  2. Öffnen Sie eine Eingabeaufforderung im selben Verzeichnis wie captioning.py.
  3. Führen Sie diesen Befehl aus, um das Speech SDK zu installieren:
    pip install azure-cognitiveservices-speech
    
  4. Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Nutzung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Wichtig

    Stellen Sie sicher, dass die angegebenen Pfade gültig --input--output sind. Andernfalls müssen Sie die Pfade ändern.

    Stellen Sie sicher, dass Sie die SPEECH_KEY Variablen und SPEECH_REGION Umgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die --key--region Argumente.

Ergebnisse überprüfen

Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie unter Ausgabeformat für Untertitel.

Verwendung und Argumente

Verwendung: python captioning.py --input <input file>

Zu den Verbindungsoptionen gehören:

  • --key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --key Option verwenden.
  • --region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --region Option verwenden. Beispiele: westus, northeurope

Wichtig

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Zu den Eingabeoptionen gehören:

  • --input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon.
  • --format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit --file. Gültige Werte sind alaw: , any, flac, mp3, , mulawund ogg_opus. Der Standardwert ist any. Wenn Sie eine wav Datei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.

Zu den Sprachoptionen gehören:

  • --language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert ist en-US.

Zu den Erkennungsoptionen gehören:

  • --offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen --realTime. Der Standardausgabemodus ist offline.
  • --realTime: Gibt Echtzeitergebnisse aus.

Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.

Zu den Genauigkeitsoptionen gehören:

Zu den Ausgabeoptionen gehören:

  • --help: Diese Hilfe anzeigen und beenden
  • --output FILE: Ausgabebeschriftungen an die angegebene file. Diese Kennzeichnung ist erforderlich.
  • --srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat.
  • --maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch).
  • --lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2.
  • --delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --quiet: Konsolenausgabe unterdrücken, außer bei Fehlern.
  • --profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte .
  • --threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist 3. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".

Bereinigen von Ressourcen

Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.

Reference-Dokumentation | Package (NuGet) | Additional samples on GitHub

In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.

Tipp

Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.

Tipp

Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.

Voraussetzungen

Einrichten der Umgebung

Das Speech SDK ist als NuGet-Paket verfügbar und implementiert .NET Standard 2.0. Sie installieren das Speech SDK weiter unten in diesem Handbuch. Überprüfen Sie jedoch zuerst das SDK-Installationshandbuch , um weitere Anforderungen zu erhalten.

Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.

Festlegen von Umgebungsvariablen

Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.

Wichtig

Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.

  • Um die Umgebungsvariable festzulegen, ersetzen SPEECH_KEY Schlüssel durch einen der Schlüssel für Ihre Ressource.
  • Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource.
  • Um die Umgebungsvariable ENDPOINT festzulegen, ersetzen Sie your-endpoint durch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Hinweis

Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.

Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.

Erstellen von Untertiteln aus Sprache

Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.

  1. Kopieren Sie die szenarien/csharp/dotnetcore/captioning/ Beispieldateien von GitHub. Wenn Sie Git installiert haben, öffnen Sie eine Eingabeaufforderung, und führen Sie den git clone Befehl aus, um das Speech SDK-Beispiel-Repository herunterzuladen.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Öffnen Sie eine Eingabeaufforderung, und wechseln Sie zum Projektverzeichnis.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Erstellen Sie das Projekt mit der .NET CLI.
    dotnet build
    
  4. Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Wichtig

    Stellen Sie sicher, dass die angegebenen Pfade gültig --input--output sind. Andernfalls müssen Sie die Pfade ändern.

    Stellen Sie sicher, dass Sie die SPEECH_KEY Variablen und SPEECH_REGION Umgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die --key--region Argumente.

Ergebnisse überprüfen

Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.

Verwendung und Argumente

Verwendung: captioning --input <input file>

Zu den Verbindungsoptionen gehören:

  • --key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --key Option verwenden.
  • --region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --region Option verwenden. Beispiele: westus, northeurope

Wichtig

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Zu den Eingabeoptionen gehören:

  • --input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon.
  • --format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit --file. Gültige Werte sind alaw: , any, flac, mp3, , mulawund ogg_opus. Der Standardwert ist any. Wenn Sie eine wav Datei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Für komprimierte Audiodateien wie MP4 installieren Sie GStreamer und lesen Sie Wie man komprimierte Eingabeaudio verwendet.

Zu den Sprachoptionen gehören:

  • --language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert ist en-US.

Zu den Erkennungsoptionen gehören:

  • --offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen --realTime. Der Standardausgabemodus ist offline.
  • --realTime: Gibt Echtzeitergebnisse aus.

Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.

Zu den Genauigkeitsoptionen gehören:

Zu den Ausgabeoptionen gehören:

  • --help: Diese Hilfe anzeigen und beenden
  • --output FILE: Ausgabebeschriftungen an die angegebene file. Diese Kennzeichnung ist erforderlich.
  • --srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat.
  • --maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch).
  • --lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2.
  • --delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --quiet: Unterdrückt die Konsolenausgabe, außer bei Fehlern.
  • --profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte .
  • --threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist 3. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".

Bereinigen von Ressourcen

Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.

Reference-Dokumentation | Package (npm) | Zusätzliche Beispiele auf GitHub | Library Quellcode

In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.

Tipp

Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.

Tipp

Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.

Voraussetzungen

Einrichten der Umgebung

Bevor Sie etwas tun können, müssen Sie das Speech SDK für JavaScript installieren. Wenn Sie nur möchten, dass der Paketname installiert werden soll, führen Sie den npm install microsoft-cognitiveservices-speech-sdkBefehl aus. Anleitungen zur geführten Installation finden Sie im SDK-Installationshandbuch.

Erstellen von Untertiteln aus Sprache

Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.

  1. Kopieren Sie die Beispieldateien scenarios/javascript/node/captioning/ aus GitHub in Ihr Projektverzeichnis.

  2. Öffnen Sie eine Eingabeaufforderung im selben Verzeichnis wie Captioning.js.

  3. Installieren Sie das Speech SDK für JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:

    node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ersetzen Sie "YourSpeechResoureKey" durch Ihren Sprachressourcenschlüssel und "YourServiceRegion" durch Ihre Sprachressourcenregion, wie zum Beispiel "westus" oder "northeurope". Stellen Sie sicher, dass die angegebenen Pfade gültig --input--output sind. Andernfalls müssen Sie die Pfade ändern.

    Hinweis

    Das Speech SDK für JavaScript unterstützt keine komprimierte Eingabeaudio. Sie müssen eine WAV-Datei wie im Beispiel gezeigt verwenden.

    Wichtig

    Denken Sie daran, den Schlüssel aus Ihrem Code zu entfernen, wenn Sie fertig sind, und veröffentlichen Sie ihn nie öffentlich. Verwenden Sie für die Produktion eine sichere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen wie Azure Key Vault. Weitere Informationen finden Sie im Sicherheitsartikel "Foundry Tools".

Ergebnisse überprüfen

Die vollständigen Beschriftungen werden in der Ausgabedatei caption.output.txt geschrieben. Zwischenergebnisse werden in der Konsole angezeigt:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.

Verwendung und Argumente

Verwendung: node captioning.js --key <key> --region <region> --input <input file>

Zu den Verbindungsoptionen gehören:

  • --key: Ihr Foundry-Ressourcenschlüssel.
  • --region REGION: Ihre Foundry-Ressourcenregion. Beispiele: westus, northeurope

Zu den Eingabeoptionen gehören:

  • --input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon.
  • --format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit --file. Gültige Werte sind alaw: , any, flac, mp3, , mulawund ogg_opus. Der Standardwert ist any. Wenn Sie eine wav Datei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.

Zu den Sprachoptionen gehören:

  • --languages LANG1,LANG2: Aktivieren Sie die Sprachidentifikation für bestimmte Sprachen. Beispiel: en-US,ja-JP. Diese Option ist nur mit den Beispielen für C++, C# und Python Beschriftung verfügbar. Weitere Informationen finden Sie unter Sprachidentifikation.

Zu den Erkennungsoptionen gehören:

  • --recognizing: Ergebnis eines Ausgabeereignisses Recognizing. Die Standardausgabe ist Recognized nur Ereignisergebnisse. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.

Zu den Genauigkeitsoptionen gehören:

Zu den Ausgabeoptionen gehören:

  • --help: Diese Hilfe anzeigen und beenden
  • --output FILE: Ausgabebeschriftungen an die angegebene file. Diese Kennzeichnung ist erforderlich.
  • --srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat.
  • --quiet: Konsolenausgabe unterdrücken, außer bei Fehlern.
  • --profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte .
  • --threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist 3. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".

Bereinigen von Ressourcen

Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.

Referenzdokumentation | Weitere Beispiele auf GitHub

In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.

Tipp

Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.

Tipp

Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.

Voraussetzungen

Einrichten der Umgebung

Bevor Sie etwas tun können, müssen Sie das Speech SDK installieren. Das Beispiel in dieser Schnellstartanleitung funktioniert mit dem Microsoft-Build von OpenJDK 17

  1. Installieren Sie Apache Maven. Führen Sie dann mvn -v aus, um die erfolgreiche Installation zu bestätigen.
  2. Erstellen Sie eine neue pom.xml Datei im Stammverzeichnis Ihres Projekts, und kopieren Sie Folgendes in die Datei:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.43.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installieren Sie das Speech SDK und Abhängigkeiten.
    mvn clean dependency:copy-dependencies
    
  4. Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.

Festlegen von Umgebungsvariablen

Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.

Wichtig

Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.

  • Um die Umgebungsvariable festzulegen, ersetzen SPEECH_KEY Schlüssel durch einen der Schlüssel für Ihre Ressource.
  • Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource.
  • Um die Umgebungsvariable ENDPOINT festzulegen, ersetzen Sie your-endpoint durch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Hinweis

Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.

Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.

Erstellen von Untertiteln aus Sprache

Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.

  1. Kopieren Sie die Beispieldateien scenarios/java/jre/captioning/ aus GitHub in Ihr Projektverzeichnis. Die pom.xml Datei, die Sie im Umgebungssetup erstellt haben, muss sich auch in diesem Verzeichnis befinden.
  2. Öffnen Sie eine Eingabeaufforderung, und führen Sie diesen Befehl aus, um die Projektdateien zu kompilieren.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Wichtig

    Stellen Sie sicher, dass die angegebenen Pfade gültig --input--output sind. Andernfalls müssen Sie die Pfade ändern.

    Stellen Sie sicher, dass Sie die SPEECH_KEY Variablen und SPEECH_REGION Umgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die --key--region Argumente.

Ergebnisse überprüfen

Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.

Verwendung und Argumente

Verwendung: java -cp ".;target\dependency\*" Captioning --input <input file>

Zu den Verbindungsoptionen gehören:

  • --key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --key Option verwenden.
  • --region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --region Option verwenden. Beispiele: westus, northeurope

Wichtig

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Zu den Eingabeoptionen gehören:

  • --input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon.
  • --format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit --file. Gültige Werte sind alaw: , any, flac, mp3, , mulawund ogg_opus. Der Standardwert ist any. Wenn Sie eine wav Datei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.

Zu den Sprachoptionen gehören:

  • --language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert ist en-US.

Zu den Erkennungsoptionen gehören:

  • --offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen --realTime. Der Standardausgabemodus ist offline.
  • --realTime: Gibt Echtzeitergebnisse aus.

Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.

Zu den Genauigkeitsoptionen gehören:

Zu den Ausgabeoptionen gehören:

  • --help: Diese Hilfe anzeigen und beenden
  • --output FILE: Ausgabebeschriftungen an die angegebene file. Diese Kennzeichnung ist erforderlich.
  • --srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat.
  • --maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch).
  • --lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2.
  • --delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --quiet: Unterdrückt die Konsolenausgabe, außer bei Fehlern.
  • --profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte .
  • --threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist 3. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".

Bereinigen von Ressourcen

Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.

Reference-Dokumentation | Package (NuGet) | Additional samples on GitHub

In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.

Tipp

Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.

Tipp

Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.

Voraussetzungen

Einrichten der Umgebung

Das Speech SDK ist als NuGet-Paket verfügbar und implementiert .NET Standard 2.0. Sie installieren das Speech SDK weiter unten in diesem Handbuch. Überprüfen Sie jedoch zuerst das SDK-Installationshandbuch , um weitere Anforderungen zu erhalten.

Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.

Festlegen von Umgebungsvariablen

Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.

Wichtig

Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.

  • Um die Umgebungsvariable festzulegen, ersetzen SPEECH_KEY Schlüssel durch einen der Schlüssel für Ihre Ressource.
  • Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource.
  • Um die Umgebungsvariable ENDPOINT festzulegen, ersetzen Sie your-endpoint durch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Hinweis

Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.

Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.

Erstellen von Untertiteln aus Sprache

Führen Sie die folgenden Schritte aus, um das Codebeispiel für die Beschriftung mit Visual Studio Community 2022 unter Windows zu erstellen und auszuführen.

  1. Laden Sie die Beispieldateien unter von GitHub in ein lokales Verzeichnis herunter oder kopieren Sie sie dorthin.

  2. Öffnen Sie die Lösungsdatei captioning.sln in Visual Studio Community 2022.

  3. Installieren Sie das Speech SDK in Ihrem Projekt mit dem NuGet-Paket-Manager.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Öffnen Sie Project>Properties>General. Festlegen der Konfiguration auf All configurations. Legen Sie C++-Sprachstandard auf ISO C++17 Standard (/std:c++17).

  5. Öffnen Sie Build>Konfigurations-Manager.

    • Legen Sie bei einer 64-Bit-Windows-Installation Aktive Lösungsplattform auf x64 fest.
    • Legen Sie bei einer 32-Bit-Windows Installation Aktive Lösungsplattform auf x86 fest.
  6. Öffnen Sie Project>Properties>Debugging. Geben Sie ihre bevorzugten Befehlszeilenargumente unter "Befehlsargumente" ein. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Wichtig

    Stellen Sie sicher, dass die angegebenen Pfade gültig --input--output sind. Andernfalls müssen Sie die Pfade ändern.

    Stellen Sie sicher, dass Sie die SPEECH_KEY Variablen und SPEECH_REGION Umgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die --key--region Argumente.

  7. Erstellen sie die Konsolenanwendung, und führen Sie sie aus.

Ergebnisse überprüfen

Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.

Verwendung und Argumente

Verwendung: captioning --input <input file>

Zu den Verbindungsoptionen gehören:

  • --key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --key Option verwenden.
  • --region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die --region Option verwenden. Beispiele: westus, northeurope

Wichtig

Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.

Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.

Zu den Eingabeoptionen gehören:

  • --input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon.
  • --format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit --file. Gültige Werte sind alaw: , any, flac, mp3, , mulawund ogg_opus. Der Standardwert ist any. Wenn Sie eine wav Datei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Für komprimierte Audiodateien wie MP4 installieren Sie GStreamer und lesen Sie Wie man komprimierte Eingabeaudio verwendet.

Zu den Sprachoptionen gehören:

  • --language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert ist en-US.

Zu den Erkennungsoptionen gehören:

  • --offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen --realTime. Der Standardausgabemodus ist offline.
  • --realTime: Gibt Echtzeitergebnisse aus.

Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.

Zu den Genauigkeitsoptionen gehören:

Zu den Ausgabeoptionen gehören:

  • --help: Diese Hilfe anzeigen und beenden
  • --output FILE: Ausgabebeschriftungen an die angegebene file. Diese Kennzeichnung ist erforderlich.
  • --srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat.
  • --maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch).
  • --lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2.
  • --delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000.
  • --quiet: Konsolenausgabe unterdrücken, außer bei Fehlern.
  • --profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte .
  • --threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist 3. Diese Option gilt nur, wenn Sie das realTime Kennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".

Bereinigen von Ressourcen

Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.

Reference-Dokumentation | Package (Go) | Additional samples on GitHub

In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.

Tipp

Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.

Tipp

Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.

Voraussetzungen

Einrichten der Umgebung

Überprüfen Sie, ob plattformspezifische Installationsschritte vorhanden sind.

Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.

Erstelle Untertitel aus Sprache

Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.

  1. Laden Sie die Beispieldateien scenarios/go/captioning/ aus GitHub in ein lokales Verzeichnis herunter, oder kopieren Sie sie.

  2. Öffnen Sie eine Eingabeaufforderung im selben Verzeichnis wie captioning.go.

  3. Führen Sie die folgenden Befehle aus, um eine go.mod-Datei zu erstellen, die mit den in GitHub gehosteten Speech SDK-Komponenten verknüpft ist:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Erstellen Sie das GO-Modul.

    go build
    
  5. Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Die verfügbaren Optionen finden Sie unter Verwendungshinweise und Parameter. Hier ist ein Beispiel:

    go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ersetzen Sie YourSpeechResoureKey durch Ihren Sprachressourcenschlüssel und YourServiceRegion durch den Sprachressourcenbereich, wie z. B. westus oder northeurope. Stellen Sie sicher, dass die angegebenen Pfade gültig --input--output sind. Andernfalls müssen Sie die Pfade ändern.

    Wichtig

    Denken Sie daran, den Schlüssel aus Ihrem Code zu entfernen, wenn Sie fertig sind, und veröffentlichen Sie ihn nie öffentlich. Verwenden Sie für die Produktion eine sichere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen wie Azure Key Vault. Weitere Informationen finden Sie im Sicherheitsartikel "Foundry Tools".

Ergebnisse überprüfen

Die Ausgabedatei mit vollständigen Untertiteln wird in caption.output.txt geschrieben. Zwischenergebnisse werden in der Konsole angezeigt:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Ausgabeformat für Beschriftungen.

Verwendung und Argumente

Verwendung: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Zu den Verbindungsoptionen gehören:

  • --key: Ihr Foundry-Ressourcenschlüssel.
  • --region REGION: Ihre Foundry-Ressourcenregion. Beispiele: westus, northeurope

Zu den Eingabeoptionen gehören:

  • --input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon.
  • --format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit --file. Gültige Werte sind alaw: , any, flac, mp3, , mulawund ogg_opus. Der Standardwert ist any. Wenn Sie eine wav Datei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.

Zu den Sprachoptionen gehören:

  • --languages LANG1,LANG2: Aktivieren Sie die Sprachidentifikation für bestimmte Sprachen. Beispiel: en-US,ja-JP. Diese Option ist nur mit den Beispielen für C++, C# und Python Beschriftung verfügbar. Weitere Informationen finden Sie unter Sprachidentifikation.

Zu den Erkennungsoptionen gehören:

  • --recognizing: Ergebnis eines Ausgabeereignisses Recognizing. Die Standardausgabe ist Recognized nur Ereignisergebnisse. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.

Zu den Genauigkeitsoptionen gehören:

Zu den Ausgabeoptionen gehören:

  • --help: Diese Hilfe anzeigen und beenden
  • --output FILE: Ausgabebeschriftungen an die angegebene file. Diese Kennzeichnung ist erforderlich.
  • --srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat.
  • --quiet: Konsolenausgabe unterdrücken, außer bei Fehlern.
  • --profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte .
  • --threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist 3. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".

Bereinigen von Ressourcen

Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.

Reference-Dokumentation | Package (download) | Additional samples on GitHub

Verfügbarkeit

Das Speech SDK für Objective-C unterstützt das Abrufen von Spracherkennungsergebnissen für die Beschriftung, aber wir haben hier noch keine Anleitung enthalten. Wählen Sie eine andere Programmiersprache aus, um zu beginnen und mehr über die Konzepte zu erfahren, oder lesen Sie die Objective-C Referenz und Beispiele, die von Anfang an in diesem Artikel verknüpft sind.

In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.

Tipp

Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.

Tipp

Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.

Voraussetzungen

Einrichten der Umgebung

Führen Sie diese Schritte aus, und sehen Sie sich die Speech CLI-Schnellstartanleitung für andere Anforderungen für Ihre Plattform an.

  1. Führen Sie den folgenden .NET CLI-Befehl aus, um die Speech CLI zu installieren:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Führen Sie die folgenden Befehle aus, um den Sprachressourcenschlüssel und die Region zu konfigurieren. Ersetzen Sie SUBSCRIPTION-KEY durch Ihren Sprachressourcenschlüssel und ersetzen Sie REGION durch Ihre Sprachressourcenregion.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.

Erstellen von Untertiteln aus Sprache

Mit der Sprach-CLI können Sie sowohl SRT (SubRip-Text) als auch WebVTT -Untertitel (Web Videotexttitel) von jedem Medientyp ausgeben, der Audio enthält.

Führen Sie die folgenden Schritte aus, um Audio aus einer Datei zu erkennen und webVtt (vtt) und SRT ()-Untertitel auszuzugebensrt.

  1. Stellen Sie sicher, dass im Pfad eine Eingabedatei benannt caption.this.mp4 ist.

  2. Führen Sie den folgenden Befehl aus, um Beschriftungen aus der Videodatei auszugeben:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    Die Beschriftungen SRT und WebVTT werden wie hier gezeigt in die Konsole ausgegeben:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Verwendung und Argumente

Hier sind Details zu den optionalen Argumenten aus dem vorherigen Befehl:

  • --file caption.this.mp4 --format any: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.
  • --output vtt file - und --output srt file -: Gibt WebVTT- und SRT-Beschriftungen in die Standardausgabe aus. Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. Weitere Informationen zum --output Argument finden Sie unter Speech CLI-Ausgabeoptionen.
  • @output.each.detailed: Gibt Ereignisergebnisse mit Text, Offset und Dauer aus. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Sie können anfordern, dass der Sprachdienst weniger Recognizing Ereignisse zurückgibt, die genauer sind. In diesem Beispiel muss der Spracherkennungsdienst die Erkennung eines Worts mindestens fünf mal bestätigen, bevor die Teilergebnisse an Sie zurückgegeben werden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".
  • --profanity masked: Sie können angeben, ob Profanität in Erkennungsergebnissen maskiert, entfernt oder angezeigt werden soll. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte .
  • --phrases "Constoso;Jessie;Rehaan": Sie können eine Liste der zu erkennenden Ausdrücke angeben, z. B. Contoso, Jessie und Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".

Bereinigen von Ressourcen

Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.

Reference-Dokumentation | Package (download) | Additional samples on GitHub

Verfügbarkeit

Das Speech SDK für Swift unterstützt das Abrufen von Spracherkennungsergebnissen für die Beschriftung, aber wir haben hier noch keine Anleitung enthalten. Bitte wählen Sie eine andere Programmiersprache aus, um zu beginnen und mehr über die Konzepte zu erfahren, oder lesen Sie die Swift-Referenz und Beispiele, die von Anfang an in diesem Artikel verknüpft sind.

Nächste Schritte