Dokumentverarbeitungsmodelle

Dieser Inhalt gilt für:Häkchenv4.0 (GA) | Frühere Versionen:blaues Häkchenv3.1 (GA)rotes Häkchenv3.0 (wird eingestellt)rotes Häkchenv2.1 (wird eingestellt)

Dieser Inhalt gilt für:checkmarkv3.1 (GA) | Neueste Version:purple-checkmarkv4.0 (GA) | Frühere Versionen:blue-checkmarkv3.0blue-checkmarkv2.1

Dieser Inhalt gilt für:red-checkmarkv3.0 (wird eingestellt) | Neueste Versionen:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Vorherige Version:blue-checkmarkv2.1 (wird eingestellt)

Dieser Inhalt gilt für:red-checkmarkv2.1 | Neueste Version:blue-checkmarkv4.0 (GA)

Azure Dokumentintelligenz in Foundry Tools unterstützt verschiedene Modelle, mit denen Sie Ihren Apps und Flüssen intelligente Dokumentverarbeitung hinzufügen können. Sie können ein vordefiniertes domänenspezifisches Modell verwenden oder ein benutzerdefiniertes Modell trainieren, das auf Ihre spezifischen Geschäftsanforderungen und Anwendungsfälle zugeschnitten ist. Sie können Dokumentintelligenz mit der REST-API oder Python-, C#-, Java- und JavaScript-Clientbibliotheken verwenden.

Hinweis

Dokumentverarbeitungsprojekte mit Finanzdaten, geschützten Gesundheitsdaten, personenbezogenen Daten oder hochsensiblen Daten erfordern eine sorgfältige Aufmerksamkeit. Achten Sie darauf, alle nationalen/regionalen und branchenspezifischen Anforderungen einzuhalten.

Modellübersicht

Die folgende Tabelle zeigt die allgemein verfügbaren (GA)-Modelle für jede stabile API.

Modelltyp Modell 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Dokumentanalysemodelle Lesen ✔️ ✔️ ✔️ Nicht verfügbar
Dokumentanalysemodelle Layout ✔️ ✔️ ✔️ ✔️
Dokumentanalysemodelle Allgemeines Dokument** Unterstützt in
Layoutmodell
✔️ ✔️ Nicht verfügbar
Vorgefertigte Modelle Bankscheck ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle Bankauszug ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle payStub ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle Vertrag ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle Krankenversicherungskarte ✔️ ✔️ ✔️ Nicht verfügbar
Vorgefertigte Modelle ID-Dokument ✔️ ✔️ ✔️ ✔️
Vorgefertigte Modelle Rechnung ✔️ ✔️ ✔️ ✔️
Vorgefertigte Modelle Beleg ✔️ ✔️ ✔️ ✔️
Vorgefertigte Modelle US unified tax* ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US 1040 Steuerformular* ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US 1095 Steuerformular* ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US 1098 Steuerformular* ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US 1099 Steuerformular* ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US W2-Steuer ✔️ ✔️ ✔️ Nicht verfügbar
Vorgefertigte Modelle US W4 Steuerformular ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US-Hypothekenantrag 1003 URLA ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US-Hypothek 1004 URAR ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US-Mortgage 1005 ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US-Hypothekenzusammenfassung 1008 ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle US-Hypothekenabschluss-Offenlegung ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle Heiratsurkunde ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle Kreditkarte ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Vorgefertigte Modelle Visitenkarte Veraltet ✔️ ✔️ ✔️
Benutzerdefiniertes Klassifizierungsmodell Benutzerdefinierter Klassifizierer ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Benutzerdefiniertes Extraktionsmodell Benutzerdefiniertes neuronales Netz ✔️ ✔️ ✔️ Nicht verfügbar
Benutzerdefiniertes Extraktionsmodell Benutzerdefinierte Vorlage ✔️ ✔️ ✔️ ✔️
Benutzerdefiniertes Extraktionsmodell Benutzerdefiniert zusammengesetzt ✔️ ✔️ ✔️ ✔️
Alle Modelle Add-On-Funktionen ✔️ ✔️ Nicht verfügbar Nicht verfügbar

* Enthält Untermodelle. Informationen zu unterstützten Variationen und Untertypen finden Sie in den modellspezifischen Informationen.
** Alle Funktionen für das allgemeine Dokumentmodell sind im Layoutmodell verfügbar. Das allgemeine Modell wird nicht mehr unterstützt.

Latenz

Die Latenz ist die Dauer, die ein API-Server benötigt, um eine eingehende Anforderung zu verarbeiten und die ausgehende Antwort an den Client zu senden. Die Zeit zum Analysieren eines Dokuments hängt von der Größe (z. B. Anzahl der Seiten) und dem zugehörigen Inhalt auf jeder Seite ab. Document Intelligence ist ein asynchroner Multitenantdienst, bei dem die Latenz für ähnliche Dokumente vergleichbar, aber nicht immer identisch ist. Gelegentliche Variabilität bei Latenz und Leistung ist in jedem mikroservicebasierten, zustandslosen Dienst enthalten, der Bilder und große Dokumente im Großen und Ganzen verarbeitet. Obwohl wir die Hardware, Kapazität und Skalierungsfähigkeiten kontinuierlich erweitern, können weiterhin Latenzprobleme zur Laufzeit auftreten.

Add-On-Funktion

Die folgenden Add-On-Funktionen sind für Die Dokumentintelligenz verfügbar. Für alle Modelle mit Ausnahme des Visitenkartenmodells unterstützt Document Intelligence jetzt Add-On-Funktionen, um anspruchsvollere Analysen zu ermöglichen. Sie können diese optionalen Funktionen je nach Szenario der Dokumentextraktion aktivieren und deaktivieren. Die folgenden Add-On-Funktionen sind für die API-Version 2023-07-31 (GA) und höher verfügbar:

Erweiterungsfunktion Add-On/Kostenlos 30.11.2024 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extraktion von Schrifteigenschaften Add-On ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Formelextraktion Add-On ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Hochauflösende Extraktion Add-On ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Barcodeextraktion Kostenlos ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Spracherkennung Kostenlos ✔️ ✔️ Nicht verfügbar Nicht verfügbar
Schlüssel-Wert-Paare Kostenlos ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Abfragefelder Add-On* ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar
Durchsuchbare PDF Add-On* ✔️ Nicht verfügbar Nicht verfügbar Nicht verfügbar

Modellanalysefunktionen

Modell-ID Inhaltsextraktion Abfragefelder Absätze Absatzrollen Auswahlmarkierungen Tabellen Schlüssel-Wert-Paare Sprachen Barcodes Dokumentanalyse Formeln* Schriftart-Stil* Hohe Auflösung* Durchsuchbare PDF
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040 (Verschiedenes) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (Verschiedenes) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

✓ - Aktiviert
O - Optional
* - Premium-Features verursachen zusätzliche Kosten

Abfragefelder werden anders bepreist als die anderen Zusatzfunktionen. Weitere Informationen finden Sie unter "Preise".

Begrenzungsrahmen- und Polygonkoordinaten

Ein Begrenzungsrahmen (polygon in v3.0 und höheren Versionen) ist ein abstraktes Rechteck, das Textelemente in einem Dokument umgibt. Ein Begrenzungsrahmen wird als Referenzpunkt für die Objekterkennung verwendet.

  • Der Begrenzungsrahmen gibt die Position mithilfe einer x- und y-Koordinatenebene an, die als Array von vier numerischen Paaren dargestellt wird. Jedes Paar stellt eine Ecke des Felds in der folgenden Reihenfolge dar: oben links, oben rechts, unten rechts, unten links.
  • Bildkoordinaten werden in Pixeln dargestellt. Für eine PDF-Datei werden Koordinaten in Zoll dargestellt.

Sprachunterstützung

Die universellen Modelle in Document Intelligence, die auf Deep Learning basieren, unterstützen viele Sprachen. Die Modelle können mehrsprachigen Text aus Ihren Bildern und Dokumenten extrahieren, einschließlich Textzeilen mit gemischten Sprachen. Die Sprachunterstützung variiert je nach Funktionalität des Dokumentintelligenzdiensts. Eine vollständige Liste finden Sie in den folgenden Artikeln:

Regionale Verfügbarkeit

Document Intelligence ist in vielen der 60+ Azure globalen Infrastrukturregionen allgemein verfügbar.

Informationen zum Auswählen der Region, die für Sie und Ihre Kunden am besten geeignet ist, finden Sie unter Azure Regionen.

Modelldetails

In diesem Abschnitt wird die Ausgabe beschrieben, die Sie von jedem Modell erwarten können. Sie können die Ausgabe der meisten Modelle mit Add-On-Features erweitern.

OCR lesen

Die Lese-API verwendet optische Zeichenerkennung (OCR) zum Analysieren und Extrahieren von Zeilen und Wörtern, deren Positionen, erkannten Sprachen und Handschriftstil, sofern erkannt.

Dieses Beispieldokument wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot eines Beispieldokuments, das mithilfe von Document Intelligence Studio Read verarbeitet wird.

Layoutanalyse

Das Layoutanalysemodell analysiert und extrahiert Text, Tabellen, Auswahlmarken und andere Strukturelemente wie Titel, Abschnittsüberschriften, Seitenüberschriften und Seitenfußzeilen.

Dieses Beispieldokument wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot einer Beispielzeitungsseite, die mithilfe von Document Intelligence Studio verarbeitet wird.

Krankenversicherungskarte

Das Krankenversicherungsmodell kombiniert leistungsstarke OCR-Funktionen mit Deep Learning-Modellen, um wichtige Informationen aus US-Krankenversicherungskarten zu analysieren und zu extrahieren.

Dieses Beispiel für eine US-Krankenversicherungskarte wurde mit Document Intelligence Studio verarbeitet.

Screenshot einer Beispielanalyse der US-Krankenversicherungskarte in Document Intelligence Studio.

US-Steuerdokumente

Die US-Steuerdokumentmodelle analysieren und extrahieren Schlüsselfelder und Zeilenelemente aus einer ausgewählten Gruppe von Steuerdokumenten. Die API unterstützt die Analyse von us-amerikanischen Steuerdokumenten verschiedener Formate und Qualität, einschließlich von Telefonaufnahmen, gescannten Dokumenten und digitalen PDF-Dateien. Die folgenden Modelle werden derzeit unterstützt:

Modell Beschreibung Modell-ID
US-Steuerformular W-2 Extrahieren Sie steuerrechtliche Vergütungsdaten. prebuilt-tax.us.w2
US-Steuerformular W-4 Extrahieren Sie steuerpflichtige Vergütungsinformationen. prebuilt-tax.us.w4
US-Steuer 1040 Extrahieren Sie Details zu Hypothekenzinsen. prebuilt-tax.us.1040 (Variationen)
US-Steuer 1095 Extrahieren Sie die Krankenversicherungsdetails. prebuilt-tax.us.1095 (Variationen)
US-Steuer 1098 Extrahieren Sie Hypothekenzinsdetails. prebuilt-tax.us.1098 (Variationen)
US-Steuer 1099 Einnahmen aus anderen Quellen als dem Arbeitgeber extrahieren. prebuilt-tax.us.1099 (Variationen)

Dieses W-2-Beispieldokument wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot eines W-2-Beispieldokuments.

US-Hypothekendokumente

Die US-Hypothekendokumentmodelle analysieren und extrahieren Schlüsselfelder, die Darlehens-, Kredit- und Immobilieninformationen aus einer ausgewählten Gruppe von Hypothekendokumenten enthalten. Die API unterstützt die Analyse von us-amerikanischen Hypothekendokumenten verschiedener Formate und Qualität, einschließlich von Telefon aufgenommenen Bildern, gescannten Dokumenten und digitalen PDF-Dateien. Die folgenden Modelle werden derzeit unterstützt.

Modell Beschreibung Modell-ID
1003 End-User Lizenzvertrag Extrahieren Sie Darlehen, Darlehensnehmer, Immobiliendetails. prebuilt-mortgage.us.1003
1004 Uniform Residential Appraisal Report (URAR) (Einheitlicher Wohnimmobilienbewertungsbericht) Extrahieren Sie Darlehens-, Kreditnehmer- und Immobiliendetails. prebuilt-mortgage.us.1004
1005 Überprüfung der Beschäftigung Extrahieren Sie Darlehens-, Kreditnehmer- und Immobiliendetails. prebuilt-mortgage.us.1005
1008 Zusammenfassungsdokument Extrahieren Sie Darlehensnehmer, Verkäufer, Immobilien, Hypotheken und Underwriting-Details. prebuilt-mortgage.us.1008
Offenlegung des Abschlusses Extrahieren Sie Abschluss-, Transaktionskosten- und Kreditdetails. prebuilt-mortgage.us.closingDisclosure

Dieses Beispiel für das schließende Offenlegungsdokument wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot, der einen Beispiel-Abschlussbericht zeigt.

Vertrag

Das Vertragsmodell analysiert und extrahiert Schlüsselfelder und Positionen aus Vertragsvereinbarungen, einschließlich Parteien, Gerichtsbarkeiten, Vertrags-ID und Titel. Das Modell unterstützt derzeit englischsprachige Vertragsdokumente.

Dieser Beispielvertrag wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot der Vertragsmodellextraktion mit Document Intelligence Studio.

US-Bankscheck

Das Vertragsmodell analysiert und extrahiert Schlüsselfelder aus US-Bankchecks, einschließlich Check-Details, Kontodetails, Betrag und Memo.

Dieses Bankcheckbeispiel wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot der Extraktion des Bankcheckmodells mithilfe von Document Intelligence Studio.

US-Bankauszug

Das Bankauszugsmodell analysiert und extrahiert Schlüsselfelder und Positionen aus der US-Bankkontonummer, den Bankdaten, den Kontoauszugsdetails und den Transaktionsdetails.

Diese Beispielbankausweisung wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Extraktion des Bankauszugsmodells anhand von Document Intelligence Studio.

payStub

Das payStub-Modell analysiert und extrahiert Schlüsselfelder und Zeilenelemente aus Dokumenten und Dateien mit lohnbezogenen Informationen.

Diese Gehaltsabrechnung wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot der PayStub-Modellextraktion mithilfe von Document Intelligence Studio.

Rechnung

Das Rechnungsmodell automatisiert die Verarbeitung von Rechnungen, um den Kundennamen, die Rechnungsadresse, das Fälligkeitsdatum, den fälligen Betrag, die Positionen und andere Schlüsseldaten zu extrahieren.

Diese Beispielrechnung wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot einer Beispielrechnung.

Beleg

Verwenden Sie das Belegmodell, um Verkaufsbestätigungen für den Händlernamen, Datumsangaben, Positionen, Mengen und Summen aus gedruckten und handschriftlichen Quittungen zu scannen. Version v3.0 unterstützt auch die Verarbeitung von Einseiten-Hotelbestätigungen.

Dieser Beispielbeleg wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Beispielbeleg

Identitätsdokument

Verwenden Sie das Identitätsdokument (ID)-Modell, um US-Führerscheine (alle 50 Staaten und District of Columbia) und biographische Seiten aus internationalen Pässen (ausgenommen Visa und andere Reisedokumente) zu verarbeiten, um Schlüsselfelder zu extrahieren.

Dieses Beispiel für einen US-Führerschein wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot einer Beispielidentifikationskarte.

Heiratsurkunde

Verwenden Sie das Ehescheinmodell, um US-Ehezertifikate zu verarbeiten, um Schlüsselfelder zu extrahieren, einschließlich der Personen, des Datums und des Standorts.

Dieses Beispiel für ein US-Ehezertifikat wurde mit Document Intelligence Studio verarbeitet.

Screenshot eines Beispiel-Ehescheins.

Kreditkarte

Verwenden Sie das Kreditkartenmodell, um Kredit- und Debitkarten zum Extrahieren von Schlüsselfeldern zu verarbeiten.

Diese Beispiel-Kreditkarte wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot einer Beispiel-Kreditkarte.

Benutzerdefinierte Modelle

Benutzerdefinierte Modelle sind allgemein in zwei Typen unterteilt. Benutzerdefinierte Klassifizierungsmodelle, die die Klassifizierung eines "Dokumenttyps" und benutzerdefinierte Extraktionsmodelle unterstützen, die ein definiertes Schema aus einem bestimmten Dokumenttyp extrahieren können.

Diagramm, das Typen von benutzerdefinierten Modellen und zugeordneten Modellbuildmodi zeigt.

Benutzerdefinierte Dokumentmodelle analysieren und extrahieren Daten aus Formularen und Dokumenten, die für Ihr Unternehmen spezifisch sind. Sie erkennen Formularfelder innerhalb Ihres unterschiedlichen Inhalts und extrahieren Schlüssel-Wert-Paare und Tabellendaten. Sie benötigen nur ein Beispiel für den Formulartyp, um zu beginnen.

Version v3.0 und höher unterstützen die Signaturerkennung in benutzerdefinierten Vorlagen (Formular) und seitenübergreifenden Tabellen sowohl in Vorlagen- als auch in neuralen Modellen. Die Signaturerkennung sucht nach dem Vorhandensein einer Signatur, nicht nach der Identität der Person, die das Dokument signiert. Wenn das Modell nicht signiert für die Signaturerkennung zurückgibt, hat das Modell keine Signatur im definierten Feld gefunden.

Diese benutzerdefinierte Beispielvorlage wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot, der die Dokumentintelligenz zeigt, die ein benutzerdefiniertes Formular analysiert.

Benutzerdefinierte Extraktion

Das benutzerdefinierte Extraktionsmodell enthält zwei Typen: benutzerdefinierte Vorlage und benutzerdefinierte neurale Elemente. Um ein benutzerdefiniertes Extraktionsmodell zu erstellen, bezeichnen Sie ein Dataset von Dokumenten mit den Werten, die Extrahiert werden sollen, und trainieren Sie das Modell für das bezeichnete Dataset. Sie benötigen nur fünf Beispiele für denselben Formular- oder Dokumenttyp, um zu beginnen.

Dieses Beispiel für eine benutzerdefinierte Extraktion wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot der benutzerdefinierten Extraktionsmodellanalyse in Document Intelligence Studio.

Benutzerdefinierter Klassifizierer

Mit dem benutzerdefinierten Klassifizierungsmodell können Sie den Dokumenttyp identifizieren, bevor Sie das Extraktionsmodell aufrufen. Das Klassifizierungsmodell ist ab der GA-API (2023-07-31) verfügbar. Für die Schulung eines benutzerdefinierten Klassifizierungsmodells sind mindestens zwei unterschiedliche Klassen und mindestens fünf Beispiele pro Klasse erforderlich.

Zusammengesetzte Modelle

Ein zusammengesetztes Modell wird erstellt, indem eine Sammlung von benutzerdefinierten Modellen erstellt und einem einzelnen Modell zugewiesen wird, das aus Ihren Formulartypen erstellt wurde. Sie können einem zusammengesetzten Modell, das mit einer einzelnen Modell-ID aufgerufen wird, mehrere benutzerdefinierte Modelle zuweisen. Sie können einem einzelnen zusammengesetzten Modell bis zu 200 trainierte benutzerdefinierte Modelle zuweisen.

Dieses zusammengesetzte Beispielmodell befindet sich in Document Intelligence Studio.

Screenshot: Bereich „Zusammensetzen eines benutzerdefinierten Modells“ in Document Intelligence Studio

Eingabeanforderungen

Die folgenden Dateiformate werden unterstützt.

Modell PDF Bild:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lesen
Gestaltung
Allgemeines Dokument
Vorkonfiguriert
Benutzerdefinierte Extraktion
Benutzerdefinierte Klassifizierung
  • Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
  • PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet.)
  • Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
  • Bildabmessungen: Die Abmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
  • Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
  • Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
  • Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
  • Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
  • Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
  • Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.

Hinweis

Das Beispielbezeichnungstool unterstützt das BMP-Dateiformat nicht. Die Einschränkung wird vom Tool abgeleitet, nicht vom Document Intelligence Service.

Versions-Migration

Erfahren Sie, wie Sie Document Intelligence v3.0 in Ihren Anwendungen verwenden, indem Sie die Schritte im Migrationshandbuch zur Dokumentintelligenz v3.1 ausführen.

Modell Beschreibung
Dokumentanalyse
Layout Extrahieren sie Text- und Layoutinformationen aus Dokumenten.
Vorkonfiguriert
Rechnung Extrahieren Sie wichtige Informationen aus englischen und spanischsprachigen Rechnungen.
Beleg Extrahieren Sie wichtige Informationen aus englischsprachigen Belegen.
ID-Dokument Extrahieren Sie wichtige Informationen aus US-Führerscheinen und internationalen Pässen.
Visitenkarte Extrahieren Sie wichtige Informationen aus englischsprachigen Visitenkarten.
Benutzerdefinierte
Benutzerdefinierte Extrahieren Sie Daten aus Formularen und Dokumenten, die für Ihr Unternehmen spezifisch sind. Benutzerdefinierte Modelle werden für Ihre unterschiedlichen Daten und Anwendungsfälle geschult.
Zusammengesetzt Erstellen Sie eine Sammlung von benutzerdefinierten Modellen, und weisen Sie sie einem einzelnen Modell zu, das aus Ihren Formulartypen erstellt wurde.

Gestaltung

Die Layout-API analysiert und extrahiert Text, Tabellen und Kopfzeilen, Auswahlmarkierungen und Strukturinformationen aus Dokumenten.

Dieses Beispieldokument wurde mit dem Beispieletikettentool verarbeitet.

Screenshot der Layoutanalyse mit dem Sample-Labeling-Tool.

Rechnung

Das Rechnungsmodell analysiert und extrahiert wichtige Informationen aus Verkaufsrechnungen. Die API analysiert Rechnungen in verschiedenen Formaten und extrahiert wichtige Informationen wie Kundenname, Rechnungsadresse, Fälligkeitsdatum und fälligen Betrag.

Diese Beispielrechnung wurde mit dem Beispieletikettentool verarbeitet.

Screenshot einer Beispielrechnungsanalyse mithilfe des Tools

Beleg

Das Belegmodell analysiert und extrahiert wichtige Informationen aus gedruckten und handschriftlichen Verkaufsbestätigungen.

Diese Beispielquittung wurde mit dem Tool "Beispielbeschriftung" verarbeitet.

Screenshot: Beispielbeleg

ID-Dokument

Das ID-Dokumentmodell analysiert und extrahiert wichtige Informationen aus den folgenden Dokumenten:

  • US-Führerscheine (alle 50 Bundesstaaten und District of Columbia)
  • Biografische Seiten aus internationalen Pässen (ausgenommen Visum und andere Reisedokumente). Die API analysiert und extrahiert Identitätsdokumente.

Dieses Beispiel eines US-Führerscheins wurde mithilfe des Tools "Beispielkennzeichnung" verarbeitet.

Screenshot einer Beispielidentifikationskarte.

Visitenkarte

Das Visitenkartenmodell analysiert und extrahiert wichtige Informationen aus Visitenkartenbildern.

Dieses Beispiel für eine Visitenkarte wurde mit dem Tool für die Beschriftung von Beispielen verarbeitet.

Screenshot einer Beispiel-Visitenkarte.

Benutzerdefinierte

Benutzerdefinierte Modelle analysieren und extrahieren Daten aus Formularen und Dokumenten, die für Ihr Unternehmen spezifisch sind. Die API ist ein Machine Learning-Programm, das trainiert wird, Um Formularfelder innerhalb Ihrer unterschiedlichen Inhalte zu erkennen und Schlüssel-Wert-Paare und Tabellendaten zu extrahieren. Sie benötigen nur fünf Beispiele für denselben Formulartyp, um zu beginnen. Sie können Ihr benutzerdefiniertes Modell mit oder ohne beschriftete Datasets trainieren.

Dieses benutzerdefinierte Beispielmodell wurde mithilfe des Beispiel-Labeling-Tools verarbeitet.

Screenshot des Tools

Zusammengesetztes benutzerdefiniertes Modell

Ein zusammengesetztes Modell wird erstellt, indem eine Sammlung von benutzerdefinierten Modellen erstellt und einem einzelnen Modell zugewiesen wird, das aus Ihren Formulartypen erstellt wurde. Sie können einem zusammengesetzten Modell, das mit einer einzelnen Modell-ID aufgerufen wird, mehrere benutzerdefinierte Modelle zuweisen. Sie können einem einzelnen zusammengesetzten Modell bis zu 100 trainierte benutzerdefinierte Modelle zuweisen.

Dieser zusammengesetzte Modellbereich wurde mithilfe des Werkzeugs zur Beispielkennzeichnung verarbeitet.

Screenshot: Bereich „Zusammensetzen eines benutzerdefinierten Modells“ in Document Intelligence Studio

Modelldatenextraktion

Modell Textextraktion Spracherkennung Auswahlmarkierungen Tabellen Absätze Absatzrollen Schlüssel-Wert-Paare Felder
Layout
Rechnung
Beleg
ID-Dokument
Visitenkarte
Benutzerdefiniertes Formular

Eingabeanforderungen

Die folgenden Dateiformate werden unterstützt.

Modell PDF Bild:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lesen
Gestaltung
Allgemeines Dokument
Vorkonfiguriert
Benutzerdefinierte Extraktion
Benutzerdefinierte Klassifizierung
  • Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
  • PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet.)
  • Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
  • Bildabmessungen: Die Abmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
  • Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
  • Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
  • Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
  • Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
  • Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
  • Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.

Hinweis

Das Beispielbezeichnungstool unterstützt das BMP-Dateiformat nicht. Die Einschränkung wird vom Tool abgeleitet, nicht von der Dokumentintelligenz.

Versions-Migration

Sie erfahren, wie Sie Document Intelligence v3.0 in Ihren Anwendungen verwenden können, indem Sie die Schritte im Migrationshandbuch zur Dokumentintelligenz v3.1 ausführen.