Transparenzhinweise und Anwendungsfälle für die optische Zeichenerkennung

Wichtig

Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.

Dieser Artikel enthält Informationen zu Anwendungsfällen für die optische Zeichenerkennung (OCR).

Was ist eine Transparenznotiz?

Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die es nutzen werden, die Menschen, die davon betroffen sind, und die Umgebung, in der sie bereitgestellt wird. Die Erstellung eines Systems, das für den vorgesehenen Zweck geeignet ist, erfordert ein Verständnis der Funktionsweise der Technologie, ihrer Fähigkeiten und Einschränkungen und derEn Erreichung der besten Leistung.

Microsoft bietet transparency Notes, die Ihnen helfen, zu verstehen, wie unsere KI-Technologie funktioniert. Dazu gehören die Auswahlmöglichkeiten von Systembesitzern, die die Systemleistung und das Verhalten beeinflussen, und die Bedeutung des Denkens über das gesamte System, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die ihr System verwenden oder davon betroffen sind.

Transparenzhinweise sind Teil eines umfassenderen Aufwands bei Microsoft, unsere KI-Prinzipien in die Praxis umzusetzen. Weitere Informationen finden Sie unter Microsoft KI-Prinzipien.

Einführung in die optische Zeichenerkennung (OCR)

Unternehmen müssen heute häufig Text aus Bildern, gescannten Papierdokumenten und digitalen Dateien in umsetzbare Erkenntnisse konvertieren. Diese Erkenntnisse ermöglichen Wissensmining, Geschäftsprozessautomatisierung und die barrierefreie Zugänglichkeit von Inhalten für alle. Optische Zeichenerkennung (OCR) ist ein KI-Dienst, der verwendet wird, um Text aus visuellen Inhalten wie Bildern und Dokumenten zu extrahieren. OCR unterstützt derzeit mehrere Sprachen für die Extraktion von Drucktext (siehe unterstützte OCR-Sprachen). Handschriftliche OCR werden derzeit ausschließlich für Englisch unterstützt.

Die Grundlagen von OCR

Die OCR-Technologie von Microsoft wird über die Azure Vision in Foundry Tools Read API angeboten. Kunden rufen die Lese-API mit ihren Inhalten auf, um den extrahierten Text, seine Position und andere Erkenntnisse in der maschinenlesbaren Textausgabe abzurufen. Sie verarbeiten die Ausgabe in ihren Geschäftsanwendungen, um Content Intelligence, Geschäftsprozessautomatisierung und andere Szenarien für ihre Benutzer zu implementieren.

Begriff Definition
Asynchron Asynchron bedeutet, dass der Dienst den extrahierten Text nicht sofort zurückgibt. Stattdessen beginnt der Prozess im Hintergrund. Die Kundenanwendung muss zu einem späteren Zeitpunkt zurückkehren, um den extrahierten Text zu erhalten.
Lesen Der Lesevorgang ist ein asynchroner Aufruf, der Bilder und Dokumente akzeptiert, um mit der Analyse und textextraktion zu beginnen, die über einen anderen Aufruf zurückgegeben wird.
Abrufen von Leseergebnissen Während der Analyse- und Extraktionsprozess aktiv ist, gibt der Vorgang „Ergebnisse abrufen“ den Status aus. Wenn der Vorgang abgeschlossen ist, gibt der Vorgang "Ergebnisse abrufen" den extrahierten Text (in Form von Textzeilen und Wörtern) und Konfidenzwerte aus.
Konfidenzwert Der Vorgang "Ergebnisse abrufen" gibt Konfidenzwerte im Bereich zwischen 0 und 1 für alle extrahierten Wörter zurück. Dieser Wert stellt die Schätzung des Diensts dar, wie oft es das Wort korrekt aus 100 extrahiert. Beispielsweise wird ein Wort, das zu 82 % der Zeit korrekt extrahiert wird, zu einem Vertrauenswert von 0,82 führen.

Beispielanwendungsfälle

Die folgenden Anwendungsfälle sind beliebte Beispiele für die OCR-Technologie.

  • Bilder und Dokumente suchen und archivieren: Unstrukturierte Dokumente wie Rechtsverträge, technische Dokumente und Nachrichteninhalte enthalten umfangreiche Informationen und Metadaten, die für Prozesse wie automatisiertes Kategorisieren, Kategorisieren und Suchen nicht verfügbar sind. OCR ermöglicht es dem Text aus diesen Dokumenten, maschinenlesbar für Analyse, Suche und Abruf zu sein.
  • Moderation und Lokalisierung von Bildinhalten: eCommerce-Unternehmen, nutzergenerierte Inhaltsverleger und Online-Gaming- und Social-Media-Communitys müssen Bilder moderieren, damit sie den Vorschriften zur Onlinesicherheit entsprechen. In bestimmten Fällen müssen sie auch Inhalte für internationale Zielgruppen lokalisieren. OCR ermöglicht es Ihnen, Text aus Bildern zu extrahieren, um nachgelagerte Verarbeitung anzuwenden.
  • Automatisierung von Geschäftsprozessen: Die Automatisierung von Geschäftsprozessen erfordert die Integration von vom Benutzer eingegebenen Daten und Einstellungen in Dokumente und Anwendungsbildschirme mit komplexen Geschäftsprozessen. OCR entsperrt den in Dokumenten und Bildern eingebetteten Text und stellt ihn in den Schritten der Geschäftsworkflows zur Verfügung.
  • Verarbeitung von Finanz- und Gesundheitsdokumenten: Bei Verwendung in der Backoffice-Verarbeitung von Finanz- und Versicherungsantragsformularen hilft OCR, Zeit und Aufwand bei der Dokumentverarbeitung zu sparen. Ebenso beschleunigt OCR, das auf medizinische Rückerstattungsanträge und Formulare von medizinischen Informationen angewendet wird, Erstattungen und Qualifizierungen für Leistungen und Vorteile.

Überlegungen bei der Auswahl anderer Anwendungsfälle

Berücksichtigen Sie die folgenden Faktoren, wenn Sie einen Anwendungsfall auswählen.

  • Überlegen Sie sorgfältig, wann Sie die OCR-Ausgabe zur Vergabe oder Ablehnung von Leistungen verwenden: Die direkte Verwendung der OCR-Ausgabe zur Vergabe oder Ablehnung von Leistungen kann zu Fehlern führen, wenn sie auf falschen oder unvollständigen Informationen basieren. Beispielsweise können Benutzer beim Ausfüllen medizinischer Formulare Fehler machen oder wichtige Informationen nicht einschließen. Darüber hinaus kann OCR teile des Formulars potenziell falsch gelesen oder nicht erkennen. Um faire und qualitativ hochwertige Entscheidungen für Verbraucher zu gewährleisten, kombinieren Sie OCR-basierte Automatisierung mit menschlicher Aufsicht.

  • Vermeiden Sie die Verwendung für die Signaturidentifikation: Wenn Sie handschriftlichen Text extrahieren, vermeiden Sie die Verwendung der OCR-Ergebnisse auf Signaturen, um Einzelpersonen zu identifizieren. Signaturen sind für Menschen und Maschinen schwer zu lesen. Eine bessere Möglichkeit, OCR zu verwenden, besteht darin, es zum Erkennen des Vorhandenseins einer Signatur zur weiteren Analyse zu verwenden.

  • Verwenden Sie OCR nicht für Entscheidungen, die schwerwiegende nachteilige Auswirkungen haben können: Beispiele für solche Anwendungsfälle sind die Verarbeitung medizinischer Verschreibungen und der Abgabe von Medikamenten. Die Machine Learning-Modelle, die Text aus Rezepten extrahieren, können zu einer nicht erkannten oder falschen Textausgabe führen. Entscheidungen, die auf einer falschen Ausgabe basieren, könnten erhebliche negative Folgen haben. Darüber hinaus ist es ratsam, die menschliche Überprüfung von Entscheidungen einzubeziehen, die das Potenzial für schwerwiegende Auswirkungen auf Einzelpersonen haben.

  • Rechtliche und behördliche Überlegungen: Organisationen müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie Foundry Tools und Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind Foundry Tools oder Lösungen nicht für sie ausgelegt und dürfen nicht auf eine Weise verwendet werden, die in anwendbaren Nutzungsbedingungen und relevanten Verhaltensregeln verboten ist.