Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Reference-Dokumentation | Package (PyPi) | Additional samples on GitHub
In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.
Tipp
Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.
Tipp
Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.
Voraussetzungen
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Erstellen Sie eine Foundry-Ressource für Sprache im Azure-Portal.
- Rufen Sie den Sprachdienst-Ressourcenschlüssel und die Region ab. Nachdem Ihre Sprachressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Schlüssel anzuzeigen und zu verwalten.
Einrichten der Umgebung
Das Speech SDK für Python ist als Python Package Index (PyPI)-Modul verfügbar. Das Speech SDK für Python ist mit Windows, Linux und macOS kompatibel.
- Sie müssen die Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017, 2019 und 2022 für Ihre Plattform installieren. Wenn Sie dieses Paket zum ersten Mal installieren, ist möglicherweise ein Neustart erforderlich.
- Unter Linux müssen Sie die x64-Zielarchitektur verwenden.
- Installieren Sie eine Version von Python von 3.10 oder höher. Überprüfen Sie zuerst das SDK-Installationshandbuch für weitere Anforderungen.
- Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.
Festlegen von Umgebungsvariablen
Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.
Wichtig
Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.
- Um die Umgebungsvariable festzulegen, ersetzen
SPEECH_KEYSchlüssel durch einen der Schlüssel für Ihre Ressource. - Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre
SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource. - Um die Umgebungsvariable
ENDPOINTfestzulegen, ersetzen Sieyour-endpointdurch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Hinweis
Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.
Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.
Erstellen von Untertiteln aus Sprache
Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.
- Laden Sie die Beispieldateien aus scenarios/python/console/captioning/ von GitHub in ein lokales Verzeichnis herunter oder kopieren Sie sie.
- Öffnen Sie eine Eingabeaufforderung im selben Verzeichnis wie
captioning.py. - Führen Sie diesen Befehl aus, um das Speech SDK zu installieren:
pip install azure-cognitiveservices-speech - Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Nutzung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Wichtig
Stellen Sie sicher, dass die angegebenen Pfade gültig
--input--outputsind. Andernfalls müssen Sie die Pfade ändern.Stellen Sie sicher, dass Sie die
SPEECH_KEYVariablen undSPEECH_REGIONUmgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die--key--regionArgumente.
Ergebnisse überprüfen
Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie unter Ausgabeformat für Untertitel.
Verwendung und Argumente
Verwendung: python captioning.py --input <input file>
Zu den Verbindungsoptionen gehören:
-
--key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--keyOption verwenden. -
--region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--regionOption verwenden. Beispiele:westus,northeurope
Wichtig
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Zu den Eingabeoptionen gehören:
-
--input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. -
--format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit--file. Gültige Werte sindalaw: ,any,flac,mp3, ,mulawundogg_opus. Der Standardwert istany. Wenn Sie einewavDatei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.
Zu den Sprachoptionen gehören:
-
--language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert isten-US.
Zu den Erkennungsoptionen gehören:
-
--offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen--realTime. Der Standardausgabemodus ist offline. -
--realTime: Gibt Echtzeitergebnisse aus.
Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.
Zu den Genauigkeitsoptionen gehören:
-
--phrases PHRASE1;PHRASE2: Sie können eine Liste der zuerkennenden Ausdrücke angeben, z. B.Contoso;Jessie;Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".
Zu den Ausgabeoptionen gehören:
-
--help: Diese Hilfe anzeigen und beenden -
--output FILE: Ausgabebeschriftungen an die angegebenefile. Diese Kennzeichnung ist erforderlich. -
--srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. -
--maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch). -
--lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2. -
--delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--quiet: Konsolenausgabe unterdrücken, außer bei Fehlern. -
--profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte . -
--threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist3. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".
Bereinigen von Ressourcen
Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.
Reference-Dokumentation | Package (NuGet) | Additional samples on GitHub
In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.
Tipp
Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.
Tipp
Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.
Voraussetzungen
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Erstellen Sie eine Foundry-Ressource für Sprache im Azure-Portal.
- Rufen Sie den Sprachdienst-Ressourcenschlüssel und die Region ab. Nachdem Ihre Sprachressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Schlüssel anzuzeigen und zu verwalten.
Einrichten der Umgebung
Das Speech SDK ist als NuGet-Paket verfügbar und implementiert .NET Standard 2.0. Sie installieren das Speech SDK weiter unten in diesem Handbuch. Überprüfen Sie jedoch zuerst das SDK-Installationshandbuch , um weitere Anforderungen zu erhalten.
Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.
Festlegen von Umgebungsvariablen
Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.
Wichtig
Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.
- Um die Umgebungsvariable festzulegen, ersetzen
SPEECH_KEYSchlüssel durch einen der Schlüssel für Ihre Ressource. - Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre
SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource. - Um die Umgebungsvariable
ENDPOINTfestzulegen, ersetzen Sieyour-endpointdurch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Hinweis
Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.
Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.
Erstellen von Untertiteln aus Sprache
Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.
- Kopieren Sie die szenarien/csharp/dotnetcore/captioning/ Beispieldateien von GitHub. Wenn Sie Git installiert haben, öffnen Sie eine Eingabeaufforderung, und führen Sie den
git cloneBefehl aus, um das Speech SDK-Beispiel-Repository herunterzuladen.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git - Öffnen Sie eine Eingabeaufforderung, und wechseln Sie zum Projektverzeichnis.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/ - Erstellen Sie das Projekt mit der .NET CLI.
dotnet build - Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Wichtig
Stellen Sie sicher, dass die angegebenen Pfade gültig
--input--outputsind. Andernfalls müssen Sie die Pfade ändern.Stellen Sie sicher, dass Sie die
SPEECH_KEYVariablen undSPEECH_REGIONUmgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die--key--regionArgumente.
Ergebnisse überprüfen
Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.
Verwendung und Argumente
Verwendung: captioning --input <input file>
Zu den Verbindungsoptionen gehören:
-
--key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--keyOption verwenden. -
--region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--regionOption verwenden. Beispiele:westus,northeurope
Wichtig
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Zu den Eingabeoptionen gehören:
-
--input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. -
--format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit--file. Gültige Werte sindalaw: ,any,flac,mp3, ,mulawundogg_opus. Der Standardwert istany. Wenn Sie einewavDatei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Für komprimierte Audiodateien wie MP4 installieren Sie GStreamer und lesen Sie Wie man komprimierte Eingabeaudio verwendet.
Zu den Sprachoptionen gehören:
-
--language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert isten-US.
Zu den Erkennungsoptionen gehören:
-
--offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen--realTime. Der Standardausgabemodus ist offline. -
--realTime: Gibt Echtzeitergebnisse aus.
Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.
Zu den Genauigkeitsoptionen gehören:
-
--phrases PHRASE1;PHRASE2: Sie können eine Liste der zu erkennenden Ausdrücke angeben, z. B.Contoso;Jessie;Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".
Zu den Ausgabeoptionen gehören:
-
--help: Diese Hilfe anzeigen und beenden -
--output FILE: Ausgabebeschriftungen an die angegebenefile. Diese Kennzeichnung ist erforderlich. -
--srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. -
--maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch). -
--lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2. -
--delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--quiet: Unterdrückt die Konsolenausgabe, außer bei Fehlern. -
--profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte . -
--threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist3. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".
Bereinigen von Ressourcen
Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.
Reference-Dokumentation | Package (npm) | Zusätzliche Beispiele auf GitHub | Library Quellcode
In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.
Tipp
Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.
Tipp
Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.
Voraussetzungen
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Erstellen Sie eine Foundry-Ressource für Sprache im Azure-Portal.
- Rufen Sie den Sprachdienst-Ressourcenschlüssel und die Region ab. Nachdem Ihre Sprachressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Schlüssel anzuzeigen und zu verwalten.
Einrichten der Umgebung
Bevor Sie etwas tun können, müssen Sie das Speech SDK für JavaScript installieren. Wenn Sie nur möchten, dass der Paketname installiert werden soll, führen Sie den npm install microsoft-cognitiveservices-speech-sdkBefehl aus. Anleitungen zur geführten Installation finden Sie im SDK-Installationshandbuch.
Erstellen von Untertiteln aus Sprache
Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.
Kopieren Sie die Beispieldateien scenarios/javascript/node/captioning/ aus GitHub in Ihr Projektverzeichnis.
Öffnen Sie eine Eingabeaufforderung im selben Verzeichnis wie
Captioning.js.Installieren Sie das Speech SDK für JavaScript:
npm install microsoft-cognitiveservices-speech-sdkFühren Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Ersetzen Sie "
YourSpeechResoureKey" durch Ihren Sprachressourcenschlüssel und "YourServiceRegion" durch Ihre Sprachressourcenregion, wie zum Beispiel "westus" oder "northeurope". Stellen Sie sicher, dass die angegebenen Pfade gültig--input--outputsind. Andernfalls müssen Sie die Pfade ändern.Hinweis
Das Speech SDK für JavaScript unterstützt keine komprimierte Eingabeaudio. Sie müssen eine WAV-Datei wie im Beispiel gezeigt verwenden.
Wichtig
Denken Sie daran, den Schlüssel aus Ihrem Code zu entfernen, wenn Sie fertig sind, und veröffentlichen Sie ihn nie öffentlich. Verwenden Sie für die Produktion eine sichere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen wie Azure Key Vault. Weitere Informationen finden Sie im Sicherheitsartikel "Foundry Tools".
Ergebnisse überprüfen
Die vollständigen Beschriftungen werden in der Ausgabedatei caption.output.txt geschrieben. Zwischenergebnisse werden in der Konsole angezeigt:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.
Verwendung und Argumente
Verwendung: node captioning.js --key <key> --region <region> --input <input file>
Zu den Verbindungsoptionen gehören:
-
--key: Ihr Foundry-Ressourcenschlüssel. -
--region REGION: Ihre Foundry-Ressourcenregion. Beispiele:westus,northeurope
Zu den Eingabeoptionen gehören:
-
--input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. -
--format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit--file. Gültige Werte sindalaw: ,any,flac,mp3, ,mulawundogg_opus. Der Standardwert istany. Wenn Sie einewavDatei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.
Zu den Sprachoptionen gehören:
-
--languages LANG1,LANG2: Aktivieren Sie die Sprachidentifikation für bestimmte Sprachen. Beispiel:en-US,ja-JP. Diese Option ist nur mit den Beispielen für C++, C# und Python Beschriftung verfügbar. Weitere Informationen finden Sie unter Sprachidentifikation.
Zu den Erkennungsoptionen gehören:
-
--recognizing: Ergebnis eines AusgabeereignissesRecognizing. Die Standardausgabe istRecognizednur Ereignisergebnisse. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die--quietOption setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.
Zu den Genauigkeitsoptionen gehören:
-
--phrases PHRASE1;PHRASE2: Sie können eine Liste der zuerkennenden Ausdrücke angeben, z. B.Contoso;Jessie;Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".
Zu den Ausgabeoptionen gehören:
-
--help: Diese Hilfe anzeigen und beenden -
--output FILE: Ausgabebeschriftungen an die angegebenefile. Diese Kennzeichnung ist erforderlich. -
--srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. -
--quiet: Konsolenausgabe unterdrücken, außer bei Fehlern. -
--profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte . -
--threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist3. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".
Bereinigen von Ressourcen
Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.
Referenzdokumentation | Weitere Beispiele auf GitHub
In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.
Tipp
Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.
Tipp
Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.
Voraussetzungen
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Erstellen Sie eine Foundry-Ressource für Sprache im Azure-Portal.
- Rufen Sie den Sprachdienst-Ressourcenschlüssel und die Region ab. Nachdem Ihre Sprachressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Schlüssel anzuzeigen und zu verwalten.
Einrichten der Umgebung
Bevor Sie etwas tun können, müssen Sie das Speech SDK installieren. Das Beispiel in dieser Schnellstartanleitung funktioniert mit dem Microsoft-Build von OpenJDK 17
- Installieren Sie Apache Maven. Führen Sie dann
mvn -vaus, um die erfolgreiche Installation zu bestätigen. - Erstellen Sie eine neue
pom.xmlDatei im Stammverzeichnis Ihres Projekts, und kopieren Sie Folgendes in die Datei:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project> - Installieren Sie das Speech SDK und Abhängigkeiten.
mvn clean dependency:copy-dependencies - Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.
Festlegen von Umgebungsvariablen
Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.
Wichtig
Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.
- Um die Umgebungsvariable festzulegen, ersetzen
SPEECH_KEYSchlüssel durch einen der Schlüssel für Ihre Ressource. - Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre
SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource. - Um die Umgebungsvariable
ENDPOINTfestzulegen, ersetzen Sieyour-endpointdurch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Hinweis
Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.
Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.
Erstellen von Untertiteln aus Sprache
Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.
- Kopieren Sie die Beispieldateien scenarios/java/jre/captioning/ aus GitHub in Ihr Projektverzeichnis. Die
pom.xmlDatei, die Sie im Umgebungssetup erstellt haben, muss sich auch in diesem Verzeichnis befinden. - Öffnen Sie eine Eingabeaufforderung, und führen Sie diesen Befehl aus, um die Projektdateien zu kompilieren.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8 - Führen Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Wichtig
Stellen Sie sicher, dass die angegebenen Pfade gültig
--input--outputsind. Andernfalls müssen Sie die Pfade ändern.Stellen Sie sicher, dass Sie die
SPEECH_KEYVariablen undSPEECH_REGIONUmgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die--key--regionArgumente.
Ergebnisse überprüfen
Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.
Verwendung und Argumente
Verwendung: java -cp ".;target\dependency\*" Captioning --input <input file>
Zu den Verbindungsoptionen gehören:
-
--key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--keyOption verwenden. -
--region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--regionOption verwenden. Beispiele:westus,northeurope
Wichtig
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Zu den Eingabeoptionen gehören:
-
--input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. -
--format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit--file. Gültige Werte sindalaw: ,any,flac,mp3, ,mulawundogg_opus. Der Standardwert istany. Wenn Sie einewavDatei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.
Zu den Sprachoptionen gehören:
-
--language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert isten-US.
Zu den Erkennungsoptionen gehören:
-
--offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen--realTime. Der Standardausgabemodus ist offline. -
--realTime: Gibt Echtzeitergebnisse aus.
Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.
Zu den Genauigkeitsoptionen gehören:
-
--phrases PHRASE1;PHRASE2: Sie können eine Liste der zuerkennenden Ausdrücke angeben, z. B.Contoso;Jessie;Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".
Zu den Ausgabeoptionen gehören:
-
--help: Diese Hilfe anzeigen und beenden -
--output FILE: Ausgabebeschriftungen an die angegebenefile. Diese Kennzeichnung ist erforderlich. -
--srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. -
--maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch). -
--lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2. -
--delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--quiet: Unterdrückt die Konsolenausgabe, außer bei Fehlern. -
--profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte . -
--threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist3. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".
Bereinigen von Ressourcen
Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.
Reference-Dokumentation | Package (NuGet) | Additional samples on GitHub
In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.
Tipp
Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.
Tipp
Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.
Voraussetzungen
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Erstellen Sie eine Foundry-Ressource für Sprache im Azure-Portal.
- Rufen Sie den Sprachdienst-Ressourcenschlüssel und die Region ab. Nachdem Ihre Sprachressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Schlüssel anzuzeigen und zu verwalten.
Einrichten der Umgebung
Das Speech SDK ist als NuGet-Paket verfügbar und implementiert .NET Standard 2.0. Sie installieren das Speech SDK weiter unten in diesem Handbuch. Überprüfen Sie jedoch zuerst das SDK-Installationshandbuch , um weitere Anforderungen zu erhalten.
Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.
Festlegen von Umgebungsvariablen
Sie müssen Ihre Anwendung authentifizieren, um auf Foundry Tools zuzugreifen. In diesem Artikel wird erläutert, wie Sie Umgebungsvariablen verwenden, um Ihre Anmeldeinformationen zu speichern. Anschließend können Sie von Ihrem Code aus auf die Umgebungsvariablen zugreifen, um Ihre Anwendung zu authentifizieren. Verwenden Sie für die Produktion eine sicherere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen.
Wichtig
Wir empfehlen die Verwendung der Microsoft Entra ID-Authentifizierung in Verbindung mit verwalteten Identitäten für Azure-Ressourcen, um zu vermeiden, dass Zugangsdaten mit Ihren Anwendungen gespeichert werden, die in der Cloud ausgeführt werden.
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie API-Schlüssel verwenden, speichern Sie sie sicher in Azure Key Vault, drehen Sie die Schlüssel regelmäßig, und beschränken Sie den Zugriff auf Azure Key Vault mithilfe rollenbasierter Zugriffssteuerung und Netzwerkzugriffseinschränkungen. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Um die Umgebungsvariablen für Den Sprachressourcenschlüssel und die Region festzulegen, öffnen Sie ein Konsolenfenster, und befolgen Sie die Anweisungen für Ihr Betriebssystem und Ihre Entwicklungsumgebung.
- Um die Umgebungsvariable festzulegen, ersetzen
SPEECH_KEYSchlüssel durch einen der Schlüssel für Ihre Ressource. - Um die Umgebungsvariable festzulegen, ersetzen Sie Ihre
SPEECH_REGIONRegion durch eine der Regionen für Ihre Ressource. - Um die Umgebungsvariable
ENDPOINTfestzulegen, ersetzen Sieyour-endpointdurch den tatsächlichen Endpunkt Ihrer Sprachausgaberessource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Hinweis
Wenn Sie die Umgebungsvariablen nur in der aktuellen Konsole benötigen, können Sie die Umgebungsvariable mit set anstelle von setx setzen.
Nachdem Sie die Umgebungsvariablen hinzugefügt haben, müssen Sie möglicherweise alle Programme neu starten, die die Umgebungsvariablen lesen müssen, einschließlich des Konsolenfensters. Wenn Sie beispielsweise Visual Studio als Editor verwenden, starten Sie Visual Studio neu, bevor Sie das Beispiel ausführen.
Erstellen von Untertiteln aus Sprache
Führen Sie die folgenden Schritte aus, um das Codebeispiel für die Beschriftung mit Visual Studio Community 2022 unter Windows zu erstellen und auszuführen.
Laden Sie die Beispieldateien unter von GitHub in ein lokales Verzeichnis herunter oder kopieren Sie sie dorthin.
Öffnen Sie die Lösungsdatei
captioning.slnin Visual Studio Community 2022.Installieren Sie das Speech SDK in Ihrem Projekt mit dem NuGet-Paket-Manager.
Install-Package Microsoft.CognitiveServices.SpeechÖffnen Sie Project>Properties>General. Festlegen der Konfiguration auf
All configurations. Legen Sie C++-Sprachstandard aufISO C++17 Standard (/std:c++17).Öffnen Sie Build>Konfigurations-Manager.
- Legen Sie bei einer 64-Bit-Windows-Installation Aktive Lösungsplattform auf
x64fest. - Legen Sie bei einer 32-Bit-Windows Installation Aktive Lösungsplattform auf
x86fest.
- Legen Sie bei einer 64-Bit-Windows-Installation Aktive Lösungsplattform auf
Öffnen Sie Project>Properties>Debugging. Geben Sie ihre bevorzugten Befehlszeilenargumente unter "Befehlsargumente" ein. Siehe Verwendung und Argumente für die verfügbaren Optionen. Hier ist ein Beispiel:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Wichtig
Stellen Sie sicher, dass die angegebenen Pfade gültig
--input--outputsind. Andernfalls müssen Sie die Pfade ändern.Stellen Sie sicher, dass Sie die
SPEECH_KEYVariablen undSPEECH_REGIONUmgebungsvariablen wie oben beschrieben festlegen. Verwenden Sie andernfalls die--key--regionArgumente.Erstellen sie die Konsolenanwendung, und führen Sie sie aus.
Ergebnisse überprüfen
Wenn Sie die realTime Option im obigen Beispiel verwenden, werden die Teilergebnisse aus Recognizing Ereignissen in der Ausgabe enthalten. In diesem Beispiel enthält nur das endgültige Recognized Ereignis die Kommas. Kommas sind nicht die einzigen Unterschiede zwischen Recognizing und Recognized Ereignissen. Weitere Informationen finden Sie unter "Teilergebnisse abrufen".
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Wenn Sie die --offline Option verwenden, sind die Ergebnisse vom endgültigen Recognized Ereignis stabil. Teilergebnisse sind nicht in der Ausgabe enthalten:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Beschriftungsausgabeformat.
Verwendung und Argumente
Verwendung: captioning --input <input file>
Zu den Verbindungsoptionen gehören:
-
--key: Ihr Foundry-Ressourcenschlüssel. Setzt die SPEECH_KEY Umgebungsvariable außer Kraft. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--keyOption verwenden. -
--region REGION: Ihre Foundry-Ressourcenregion. Überschreibt die SPEECH_REGION Umgebungsvariable. Sie müssen die Umgebungsvariable (empfohlen) festlegen oder die--regionOption verwenden. Beispiele:westus,northeurope
Wichtig
Verwenden Sie API-Schlüssel mit Vorsicht. Fügen Sie den API-Schlüssel nicht direkt in Ihren Code ein, und veröffentlichen Sie ihn nie öffentlich. Wenn Sie einen API-Schlüssel verwenden, speichern Sie ihn sicher in Azure Key Vault. Weitere Informationen zur sicheren Verwendung von API-Schlüsseln in Ihren Apps finden Sie unter API-Schlüssel mit Azure Key Vault.
Weitere Informationen zur Sicherheit von AI-Diensten finden Sie unter Authenticate-Anforderungen an Azure KI Services.
Zu den Eingabeoptionen gehören:
-
--input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. -
--format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit--file. Gültige Werte sindalaw: ,any,flac,mp3, ,mulawundogg_opus. Der Standardwert istany. Wenn Sie einewavDatei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Für komprimierte Audiodateien wie MP4 installieren Sie GStreamer und lesen Sie Wie man komprimierte Eingabeaudio verwendet.
Zu den Sprachoptionen gehören:
-
--language LANG: Geben Sie eine Sprache mit einem der verfügbaren unterstützten Locales an. Dies wird beim Aufteilen von Beschriftungen in Zeilen verwendet. Der Standardwert isten-US.
Zu den Erkennungsoptionen gehören:
-
--offline: Ausgabe von Offlineergebnissen. Außerkraftsetzungen--realTime. Der Standardausgabemodus ist offline. -
--realTime: Gibt Echtzeitergebnisse aus.
Die Echtzeitausgabe enthält Recognizing Ereignisergebnisse. Die standardmäßige Offline-Ausgabe besteht nur aus Recognized den Ereignisergebnissen. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die --quiet Option setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.
Zu den Genauigkeitsoptionen gehören:
-
--phrases PHRASE1;PHRASE2: Sie können eine Liste der zu erkennenden Ausdrücke angeben, z. B.Contoso;Jessie;Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".
Zu den Ausgabeoptionen gehören:
-
--help: Diese Hilfe anzeigen und beenden -
--output FILE: Ausgabebeschriftungen an die angegebenefile. Diese Kennzeichnung ist erforderlich. -
--srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. -
--maxLineLength LENGTH: Legen Sie die maximale Anzahl von Zeichen pro Zeile für eine Untertitel auf die LÄNGE fest. Der Mindestwert beträgt 20. Der Standardwert ist 37 (30 für Chinesisch). -
--lines LINES: Legen Sie die Anzahl der Zeilen für eine Beschriftung auf ZEILEN fest. Der Mindestwert ist 1. Der Standardwert ist 2. -
--delay MILLISECONDS: Wie viele Millisekunden die Anzeige jeder Beschriftung verzögert werden soll, um eine Echtzeiterfahrung zu simulieren. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--remainTime MILLISECONDS: Wie viele MILLISECONDS eine Beschriftung auf dem Bildschirm bleiben soll, wenn sie nicht durch eine andere ersetzt wird. Der Mindestwert beträgt 0,0. Der Standardwert ist 1000. -
--quiet: Konsolenausgabe unterdrücken, außer bei Fehlern. -
--profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte . -
--threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist3. Diese Option gilt nur, wenn Sie dasrealTimeKennzeichen verwenden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".
Bereinigen von Ressourcen
Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.
Reference-Dokumentation | Package (Go) | Additional samples on GitHub
In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.
Tipp
Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.
Tipp
Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.
Voraussetzungen
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Erstellen Sie eine Foundry-Ressource für Sprache im Azure-Portal.
- Rufen Sie den Sprachdienst-Ressourcenschlüssel und die Region ab. Nachdem Ihre Sprachressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Schlüssel anzuzeigen und zu verwalten.
Einrichten der Umgebung
Überprüfen Sie, ob plattformspezifische Installationsschritte vorhanden sind.
Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.
Erstelle Untertitel aus Sprache
Führen Sie die folgenden Schritte aus, um das Schnellstartcodebeispiel für Beschriftungen zu erstellen und auszuführen.
Laden Sie die Beispieldateien scenarios/go/captioning/ aus GitHub in ein lokales Verzeichnis herunter, oder kopieren Sie sie.
Öffnen Sie eine Eingabeaufforderung im selben Verzeichnis wie
captioning.go.Führen Sie die folgenden Befehle aus, um eine
go.mod-Datei zu erstellen, die mit den in GitHub gehosteten Speech SDK-Komponenten verknüpft ist:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-goErstellen Sie das GO-Modul.
go buildFühren Sie die Anwendung mit den bevorzugten Befehlszeilenargumenten aus. Die verfügbaren Optionen finden Sie unter Verwendungshinweise und Parameter. Hier ist ein Beispiel:
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Ersetzen Sie
YourSpeechResoureKeydurch Ihren Sprachressourcenschlüssel undYourServiceRegiondurch den Sprachressourcenbereich, wie z. B.westusodernortheurope. Stellen Sie sicher, dass die angegebenen Pfade gültig--input--outputsind. Andernfalls müssen Sie die Pfade ändern.Wichtig
Denken Sie daran, den Schlüssel aus Ihrem Code zu entfernen, wenn Sie fertig sind, und veröffentlichen Sie ihn nie öffentlich. Verwenden Sie für die Produktion eine sichere Möglichkeit zum Speichern und Zugreifen auf Ihre Anmeldeinformationen wie Azure Key Vault. Weitere Informationen finden Sie im Sicherheitsartikel "Foundry Tools".
Ergebnisse überprüfen
Die Ausgabedatei mit vollständigen Untertiteln wird in caption.output.txt geschrieben. Zwischenergebnisse werden in der Konsole angezeigt:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Das Ausgabeformat für SRT (SubRip-Text) ist hh:mm:ss,fff. Weitere Informationen finden Sie im Ausgabeformat für Beschriftungen.
Verwendung und Argumente
Verwendung: go run captioning.go helper.go --key <key> --region <region> --input <input file>
Zu den Verbindungsoptionen gehören:
-
--key: Ihr Foundry-Ressourcenschlüssel. -
--region REGION: Ihre Foundry-Ressourcenregion. Beispiele:westus,northeurope
Zu den Eingabeoptionen gehören:
-
--input FILE: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. -
--format FORMAT: Komprimiertes Audioformat verwenden. Nur gültig mit--file. Gültige Werte sindalaw: ,any,flac,mp3, ,mulawundogg_opus. Der Standardwert istany. Wenn Sie einewavDatei verwenden möchten, geben Sie das Format nicht an. Diese Option ist im JavaScript-Beschriftungsbeispiel nicht verfügbar. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet.
Zu den Sprachoptionen gehören:
-
--languages LANG1,LANG2: Aktivieren Sie die Sprachidentifikation für bestimmte Sprachen. Beispiel:en-US,ja-JP. Diese Option ist nur mit den Beispielen für C++, C# und Python Beschriftung verfügbar. Weitere Informationen finden Sie unter Sprachidentifikation.
Zu den Erkennungsoptionen gehören:
-
--recognizing: Ergebnis eines AusgabeereignissesRecognizing. Die Standardausgabe istRecognizednur Ereignisergebnisse. Diese werden immer in die Konsole geschrieben, niemals in eine Ausgabedatei. Die--quietOption setzt dies außer Kraft. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen.
Zu den Genauigkeitsoptionen gehören:
-
--phrases PHRASE1;PHRASE2: Sie können eine Liste der zuerkennenden Ausdrücke angeben, z. B.Contoso;Jessie;Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".
Zu den Ausgabeoptionen gehören:
-
--help: Diese Hilfe anzeigen und beenden -
--output FILE: Ausgabebeschriftungen an die angegebenefile. Diese Kennzeichnung ist erforderlich. -
--srt: Ausgabebeschriftungen im SRT-Format (SubRip-Text). Das Standardformat ist WebVTT (Web Video Text Tracks). Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. -
--quiet: Konsolenausgabe unterdrücken, außer bei Fehlern. -
--profanity OPTION: Gültige Werte: raw, remove, mask. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte . -
--threshold NUMBER: Festlegen des stabilen Teilergebnisschwellenwerts. Der Standardwert ist3. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ".
Bereinigen von Ressourcen
Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.
Reference-Dokumentation | Package (download) | Additional samples on GitHub
Verfügbarkeit
Das Speech SDK für Objective-C unterstützt das Abrufen von Spracherkennungsergebnissen für die Beschriftung, aber wir haben hier noch keine Anleitung enthalten. Wählen Sie eine andere Programmiersprache aus, um zu beginnen und mehr über die Konzepte zu erfahren, oder lesen Sie die Objective-C Referenz und Beispiele, die von Anfang an in diesem Artikel verknüpft sind.
In dieser Schnellstartanleitung führen Sie eine Konsolen-App aus, um Beschriftungen mit Sprache zu Text zu erstellen.
Tipp
Testen Sie Das Speech Studio , und wählen Sie einen Beispielvideoclip aus, um die Ergebnisse der Untertitelung in Echtzeit oder offline zu sehen.
Tipp
Probieren Sie die Azure Speech im Foundry Tools Toolkit aus, um Beschriftungsbeispiele auf Visual Studio Code einfach zu erstellen und auszuführen.
Voraussetzungen
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Erstellen Sie eine Foundry-Ressource für Sprache im Azure-Portal.
- Rufen Sie den Sprachdienst-Ressourcenschlüssel und die Region ab. Nachdem Ihre Sprachressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Schlüssel anzuzeigen und zu verwalten.
Einrichten der Umgebung
Führen Sie diese Schritte aus, und sehen Sie sich die Speech CLI-Schnellstartanleitung für andere Anforderungen für Ihre Plattform an.
Führen Sie den folgenden .NET CLI-Befehl aus, um die Speech CLI zu installieren:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLIFühren Sie die folgenden Befehle aus, um den Sprachressourcenschlüssel und die Region zu konfigurieren. Ersetzen Sie
SUBSCRIPTION-KEYdurch Ihren Sprachressourcenschlüssel und ersetzen SieREGIONdurch Ihre Sprachressourcenregion.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Sie müssen auch GStreamer für komprimierte Eingabeaudio installieren.
Erstellen von Untertiteln aus Sprache
Mit der Sprach-CLI können Sie sowohl SRT (SubRip-Text) als auch WebVTT -Untertitel (Web Videotexttitel) von jedem Medientyp ausgeben, der Audio enthält.
Führen Sie die folgenden Schritte aus, um Audio aus einer Datei zu erkennen und webVtt (vtt) und SRT ()-Untertitel auszuzugebensrt.
Stellen Sie sicher, dass im Pfad eine Eingabedatei benannt
caption.this.mp4ist.Führen Sie den folgenden Befehl aus, um Beschriftungen aus der Videodatei auszugeben:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"Die Beschriftungen SRT und WebVTT werden wie hier gezeigt in die Konsole ausgegeben:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Verwendung und Argumente
Hier sind Details zu den optionalen Argumenten aus dem vorherigen Befehl:
-
--file caption.this.mp4 --format any: Eingabeaudio aus Datei. Die Standardeingabe ist das Mikrofon. Installieren Sie GStreamer, um komprimierte Audiodateien wie MP4 zu verwenden, und lesen Sie wie man komprimierte Eingabedateien verwendet. -
--output vtt file -und--output srt file -: Gibt WebVTT- und SRT-Beschriftungen in die Standardausgabe aus. Weitere Informationen zu SRT- und WebVTT-Untertiteldateiformaten finden Sie unter Caption-Ausgabeformat. Weitere Informationen zum--outputArgument finden Sie unter Speech CLI-Ausgabeoptionen. -
@output.each.detailed: Gibt Ereignisergebnisse mit Text, Offset und Dauer aus. Weitere Informationen finden Sie unter Abrufen von Spracherkennungsergebnissen. -
--property SpeechServiceResponse_StablePartialResultThreshold=5: Sie können anfordern, dass der Sprachdienst wenigerRecognizingEreignisse zurückgibt, die genauer sind. In diesem Beispiel muss der Spracherkennungsdienst die Erkennung eines Worts mindestens fünf mal bestätigen, bevor die Teilergebnisse an Sie zurückgegeben werden. Weitere Informationen finden Sie unter "Partielle Ergebniskonzepte abrufen ". -
--profanity masked: Sie können angeben, ob Profanität in Erkennungsergebnissen maskiert, entfernt oder angezeigt werden soll. Weitere Informationen finden Sie unter Profanitätsfilterkonzepte . -
--phrases "Constoso;Jessie;Rehaan": Sie können eine Liste der zu erkennenden Ausdrücke angeben, z. B. Contoso, Jessie und Rehaan. Weitere Informationen finden Sie unter "Verbessern der Erkennung mit Begriffsliste".
Bereinigen von Ressourcen
Sie können das portal Azure oder Azure Command Line Interface (CLI) verwenden, um die von Ihnen erstellte Sprachausgaberessource zu entfernen.
Reference-Dokumentation | Package (download) | Additional samples on GitHub
Verfügbarkeit
Das Speech SDK für Swift unterstützt das Abrufen von Spracherkennungsergebnissen für die Beschriftung, aber wir haben hier noch keine Anleitung enthalten. Bitte wählen Sie eine andere Programmiersprache aus, um zu beginnen und mehr über die Konzepte zu erfahren, oder lesen Sie die Swift-Referenz und Beispiele, die von Anfang an in diesem Artikel verknüpft sind.