Modèle de facture Document Intelligence

Ce contenu s’applique à :checkmarkv4.0 (GA) | Versions antérieures :blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (retrait)red-checkmarkv2.1 (mise hors service)

::: moniker-end

Ce contenu s’applique à :checkmarkv3.1 (GA) | Dernière version :purple-checkmarkv4.0 (GA) | Versions antérieures :blue-checkmarkv3.0blue-checkmarkv2.1

Ce contenu s’applique à :red-checkmarkv3.0 (mise hors service) | Dernières versions :purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Version précédente :blue-checkmarkv2.1 (mise hors service)

Ce contenu s’applique à :red-checkmarkv2.1 | Dernière version :blue-checkmarkv4.0 (GA)

Le modèle de facture Document Intelligence utilise de puissantes fonctionnalités de reconnaissance optique de caractères (OCR) pour analyser et extraire les champs clés et les éléments de ligne des factures de vente, des factures d’utilitaire et des commandes d’achat. Les factures peuvent être de différents formats et qualité, y compris les images capturées par téléphone, les documents numérisés et les fichiers PDF numériques. L’API analyse le texte de la facture ; extrait les informations clés telles que le nom du client, l’adresse de facturation, la date d’échéance et le montant dû ; et retourne une représentation structurée des données JSON. Le modèle prend actuellement en charge les factures en 27 langues.

Types de documents pris en charge :

  • Factures
  • Factures de services publics
  • Commandes commerciales
  • Commandes d’achat

Traitement automatisé des factures

Le traitement automatisé des factures est le processus d’extraction de champs clés accounts payable à partir de documents de compte de facturation. Les données extraites incluent les éléments de ligne des factures intégrées aux flux de travail des comptes payables (AP) pour les révisions et les paiements. Historiquement, le processus de paiement des comptes est effectué manuellement et, par conséquent, très long. L’extraction précise des données clés à partir de factures est généralement la première et l’une des étapes les plus critiques du processus d’automatisation des factures.

Exemple de facture traité avec Document Intelligence Studio :

Capture d’écran d’un exemple de facture analysé dans Document Intelligence Studio.

Exemple de facture traité avec l’outil d’étiquetage d’exemple Document Intelligence :

Capture d’écran d’un exemple de facture.

Options de développement

Document Intelligence v4.0 : 2024-11-30 (GA) prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle de facture Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
facture-prédéfinie

Document Intelligence v3.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle de facture Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
préconstruit-facture

Document Intelligence v3.0 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèle de facture Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
préconçu-facture

Document Intelligence v2.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources
Modèle de facture • Outil d’étiquetage Document Intelligence
API REST
bibliothèque cliente SDK
Conteneur Docker Document Intelligence

Exigences pour les données

Les formats de fichier suivants sont pris en charge.

Modèle PDF Image :
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office :
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lire
Mise en page
Document général
Préassemblé
Extraction personnalisée
Classification personnalisée
  • Photos et analyses : pour obtenir de meilleurs résultats, fournissez une photo claire ou une analyse de haute qualité par document.
  • PDF et TIFFs : pour les fichiers PDF et les TIFF, jusqu’à 2 000 pages peuvent être traitées. (Avec un abonnement de niveau gratuit, seules les deux premières pages sont traitées.)
  • Taille du fichier : la taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
  • Dimensions de l’image : les dimensions doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.
  • Verrous de mot de passe : si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant la soumission.
  • Hauteur du texte : la hauteur minimale du texte à extraire est de 12 pixels pour une image de 1 024 x 768 pixels. Cette dimension correspond à environ 8 points de texte à 150 points par pouce.
  • Entraînement de modèle personnalisé : le nombre maximal de pages pour les données d’apprentissage est de 500 pour le modèle de modèle personnalisé et de 50 000 pour le modèle neuronal personnalisé.
  • Entraînement du modèle d’extraction personnalisé : la taille totale des données d’entraînement est de 50 Mo pour le modèle de modèle et de 1 Go pour le modèle neuronal.
  • Entraînement du modèle de classification personnalisé : la taille totale des données d’apprentissage est de 1 Go avec un maximum de 10 000 pages. Pour 2024-11-30 (GA), la taille totale des données d’apprentissage est de 2 Go avec un maximum de 10 000 pages.
  • Types de fichiers Office (DOCX, XLSX, PPTX) : la limite maximale de longueur de chaîne est de 8 millions de caractères.
  • Formats de fichiers pris en charge : JPEG, PNG, PDF et TIFF.
  • Les fichiers PDF et TIFF pris en charge permettent de traiter jusqu'à 2 000 pages. Pour les abonnés de niveau gratuit, seules les deux premières pages sont traitées.
  • La taille de fichier prise en charge doit être inférieure à 50 Mo et les dimensions au moins 50 x 50 pixels et au maximum 10 000 x 10 000 pixels.

Extraction des données du modèle de facture

Découvrez comment les données, notamment les informations client, les détails du fournisseur et les éléments de ligne, sont extraites des factures. Vous avez besoin des ressources suivantes :

  • Un abonnement Azure : vous pouvez créer un abonnement gratuitement.

  • Une instance Document Intelligence dans le portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour essayer le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour obtenir votre clé et votre point de terminaison.

Capture d'écran des clés et de l'emplacement de l'endpoint dans le portail Azure.

  1. Dans la page d’accueil document Intelligence Studio, sélectionnez Factures.

  2. Vous pouvez analyser l’exemple de facture ou charger vos propres fichiers.

  3. Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les options Analyser :

    Capture d’écran des boutons Exécuter l’analyse et analyser les options dans Document Intelligence Studio.

Outil d'étiquetage d'exemples Document Intelligence

  1. Accédez à l’outil Document Intelligence Sample Tool.

  2. Dans l’exemple de page d’accueil de l’outil, sélectionnez le modèle prédéfini pour obtenir la vignette de données .

    Capture d’écran du processus d’analyse des résultats du modèle de disposition.

  3. Sélectionnez le type de formulaire à analyser dans le menu déroulant.

  4. Choisissez une URL pour le fichier que vous souhaitez analyser dans les options ci-dessous :

  5. Dans le champ Source , sélectionnez l’URL dans le menu déroulant, collez l’URL sélectionnée, puis sélectionnez le bouton Récupérer .

    Capture d’écran du menu déroulant de l’emplacement de la source.

  6. Dans le champ point de terminaison du service Document Intelligence , collez le point de terminaison que vous avez obtenu avec votre abonnement Document Intelligence.

  7. Dans le champ clé , collez la clé que vous avez obtenue à partir de votre ressource Document Intelligence.

    Capture d’écran montrant le menu déroulant select-form-type.

  8. Sélectionnez Exécuter l’analyse. L'outil d'étiquetage d'exemples de Document Intelligence appelle l'API prédéfinie d'analyse et procède à l'analyse du document.

  9. Affichez les résultats : consultez les paires clé-valeur extraites, les éléments de ligne, le texte en surbrillance extrait et les tableaux détectés.

    Capture d’écran de l’opération d’analyse des résultats du modèle de disposition.

Note

L’outil Exemple d’étiquetage ne prend pas en charge le format de fichier BMP. Il s’agit d’une limitation de l’outil et non du service Document Intelligence.

Langues et paramètres régionaux pris en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page de prise en charge de la langue du modèle prédéfinie .

Extraction de champ

  • Pour les champs d’extraction de documents pris en charge, voir le schéma de modèle de facture dans notre dépôt d'exemples GitHub.

  • Les paires clé-valeur de facture et les éléments de ligne extraits se trouvent dans la documentResults section de la sortie JSON.

Paires clé-valeur

Le modèle de facture prédéfini prend en charge le retour facultatif de paires clé-valeur. Par défaut, le retour des paires clé-valeur est désactivé. Les paires clé-valeur sont des étendues spécifiques au sein de la facture qui identifient une étiquette ou une clé et sa réponse ou sa valeur associée. Dans une facture, ces paires peuvent être l’étiquette et la valeur que l’utilisateur a entrée pour ce champ ou ce numéro de téléphone. Le modèle IA est formé pour extraire des clés et des valeurs identifiables en fonction d’un large éventail de types de documents, de formats et de structures.

Les clés peuvent également exister de manière isolée lorsque le modèle détecte qu’une clé existe, sans valeur associée ou lors du traitement de champs facultatifs. Par exemple, un champ de prénom peut être laissé vide sur un formulaire dans certains cas. Les paires clé-valeur sont toujours des étendues de texte contenues dans le document. Pour les documents où la même valeur est décrite de différentes façons, par exemple, client/utilisateur, la clé associée est client ou utilisateur (en fonction du contexte).

Sortie JSON

La sortie JSON comporte trois parties :

  • "readResults" le nœud contient tout le texte et toutes les marques de sélection reconnus. Le texte est organisé par page, puis par ligne, puis par mots individuels.
  • "pageResults" Le nœud contient les tables et les cellules extraites ainsi que leurs zones englobantes, leur indice de confiance et une référence aux lignes et mots dans readResults.
  • "documentResults" node contient les valeurs et les éléments de ligne spécifiques à la facture que le modèle a découverts. C'est l'endroit où trouver tous les champs de la facture, tels que l'ID de la facture, l'adresse de livraison, l'adresse de facturation, le client, le total, les lignes d'articles et bien plus encore.

Guide de migration

::: moniker-end

Étapes suivantes