Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Ce contenu s’applique à :
v4.0 (GA) | Versions antérieures :
v3.1 (GA)
v3.0 (retrait)
v2.1 (mise hors service)
Ce contenu s’applique à :
v3.0 (mise hors service) | Dernières versions :
v4.0 (GA)
v3.1 | Version précédente :
v2.1 (mise hors service)
Ce contenu s’applique à :
v2.1 | Dernière version :
v4.0 (GA)
Le modèle de reçu Document Intelligence combine de puissantes fonctionnalités de reconnaissance optique de caractères (OCR) avec des modèles d’apprentissage profond pour analyser et extraire les informations clés des reçus des ventes. Les reçus peuvent être de différents formats et qualité, y compris les reçus imprimés et manuscrits. L’API extrait des informations clés telles que le nom du marchand, le numéro de téléphone marchand, la date de transaction, la taxe et le total des transactions et retourne des données JSON structurées. Le modèle de reçu v4.0 (GA) prend en charge d’autres champs, notamment ReceiptType, TaxDetails.NetAmount, TaxDetails.Description, TaxDetails.Rate et CountryRegion, ainsi que l'extraction des tableaux de TVA sur les reçus d'hôtels généraux.
Extraction des données de reçu
La numérisation des reçus englobe la transformation de différents types de reçus, y compris les copies numérisées, photographiées et imprimées, dans un format numérique pour simplifier le traitement en aval. Par exemple, la gestion des dépenses, l’analyse du comportement des consommateurs, l’automatisation fiscale, etc. L’utilisation de la technologie OCR (reconnaissance optique de caractères) permet d’extraire et d’interpréter les données de ces différents formats de reçu. Le traitement Document Intelligence simplifie le processus de conversion, mais réduit considérablement le temps et l’effort requis, ce qui facilite la gestion efficace des données et la récupération.
Exemple de reçu traité avec Document Intelligence Studio :
Exemple de reçu traité avec l’outil d’étiquetage d’exemple Document Intelligence :
Options de développement
Document Intelligence v4.0 : 2024-11-30 (GA) prend en charge les outils, applications et bibliothèques suivants :
| Fonction | Ressources | ID de modèle |
|---|---|---|
| Modèle de reçu | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
préconstruit-reçu |
Document Intelligence v3.1 prend en charge les outils, applications et bibliothèques suivants :
| Fonction | Ressources | ID de modèle |
|---|---|---|
| Modèle de reçu | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
reçu préconstruit |
Document Intelligence v3.0 prend en charge les outils, applications et bibliothèques suivants :
| Fonction | Ressources | ID de modèle |
|---|---|---|
| Modèle de reçu | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
préconfiguré-reçu |
Document Intelligence v2.1 prend en charge les outils, applications et bibliothèques suivants :
| Fonction | Ressources |
|---|---|
| Modèle de reçu | • Outil d’étiquetage Document Intelligence • API REST • bibliothèque cliente SDK • Conteneur Docker Document Intelligence |
Exigences pour les données
Les formats de fichier suivants sont pris en charge.
| Modèle | Image : JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office : Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Lire | ✔ | ✔ | ✔ |
| Mise en page | ✔ | ✔ | ✔ |
| Document général | ✔ | ✔ | |
| Préassemblé | ✔ | ✔ | |
| Extraction personnalisée | ✔ | ✔ | |
| Classification personnalisée | ✔ | ✔ | ✔ |
- Photos et analyses : pour obtenir de meilleurs résultats, fournissez une photo claire ou une analyse de haute qualité par document.
- PDF et TIFFs : pour les fichiers PDF et les TIFF, jusqu’à 2 000 pages peuvent être traitées. (Avec un abonnement de niveau gratuit, seules les deux premières pages sont traitées.)
- Taille du fichier : la taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).
- Dimensions de l’image : les dimensions doivent être comprises entre 50 pixels x 50 pixels et 10 000 pixels x 10 000 pixels.
- Verrous de mot de passe : si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant la soumission.
- Hauteur du texte : la hauteur minimale du texte à extraire est de 12 pixels pour une image de 1 024 x 768 pixels. Cette dimension correspond à environ 8 points de texte à 150 points par pouce.
- Entraînement de modèle personnalisé : le nombre maximal de pages pour les données d’apprentissage est de 500 pour le modèle de modèle personnalisé et de 50 000 pour le modèle neuronal personnalisé.
- Entraînement du modèle d’extraction personnalisé : la taille totale des données d’entraînement est de 50 Mo pour le modèle de modèle et de 1 Go pour le modèle neuronal.
- Entraînement du modèle de classification personnalisé : la taille totale des données d’apprentissage est de 1 Go avec un maximum de 10 000 pages. Pour 2024-11-30 (GA), la taille totale des données d’apprentissage est de 2 Go avec un maximum de 10 000 pages.
- Types de fichiers Office (DOCX, XLSX, PPTX) : la limite maximale de longueur de chaîne est de 8 millions de caractères.
- Formats de fichiers pris en charge : JPEG, PNG, PDF et TIFF.
- Allocation de page prise en charge pour PDF et TIFF : Document Intelligence peut traiter jusqu’à 2 000 pages pour les abonnés de niveau standard ou uniquement les deux premières pages pour les abonnés de niveau gratuit.
- Taille de fichier prise en charge : inférieure à 50 Mo ; pixels minimum 50 x 50 px ; pixels maximum 10 000 x 10 000 px.
Extraction des données du modèle de reçu
Découvrez comment Document Intelligence extrait des données, y compris l’heure et la date des transactions, les informations commerciales et le montant total des reçus. Vous avez besoin des ressources suivantes :
Un abonnement Azure : vous pouvez créer un abonnement gratuitement.
Une instance Document Intelligence dans le portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (
F0) pour essayer le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour obtenir votre clé et votre point de terminaison.
Note
Document Intelligence Studio est disponible avec les API v3.1 et v3.0 et versions ultérieures.
Dans la page d’accueil de Document Intelligence Studio, sélectionnez Reçus.
Vous pouvez analyser l’exemple de reçu ou charger vos propres fichiers.
Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les options Analyser :
Outil d’étiquetage d’exemples pour Document Intelligence
Accédez à l'outil d'exemple Document Intelligence.
Sur la page d'accueil de l'outil d'exemple, sélectionnez la vignette Utiliser le modèle prédéfini pour obtenir des données.
Sélectionnez le type de formulaire à analyser dans le menu déroulant.
Choisissez une URL pour le fichier que vous souhaitez analyser dans les options ci-dessous :
Exemple d'image de carte de visite.
Dans le champ Source , sélectionnez l’URL dans le menu déroulant, collez l’URL sélectionnée, puis sélectionnez le bouton Récupérer .
Dans le champ point de terminaison du service Document Intelligence , collez le point de terminaison que vous avez obtenu avec votre abonnement Document Intelligence.
Dans le champ clé , collez la clé que vous avez obtenue à partir de votre ressource Document Intelligence.
Sélectionnez Exécuter l’analyse. L’outil d’étiquetage de Document Intelligence appelle l’API Analyze Prebuilt et analyse le document.
Affichez les résultats : consultez les paires clé-valeur extraites, les éléments de ligne, le texte en surbrillance extrait et les tableaux détectés.
Note
L’outil Exemple d’étiquetage ne prend pas en charge le format de fichier BMP. Il s’agit d’une limitation de l’outil et non du service Document Intelligence.
Langues et paramètres régionaux pris en charge
Pour obtenir la liste complète des langues prises en charge, consultez notre page de prise en charge des modèles prédéfinis .
Extraction de champ
Pour connaître les champs d’extraction de documents pris en charge, reportez-vous à la page du schéma du modèle de reçus
| Nom | Type | Description | Sortie standardisée |
|---|---|---|---|
| TypeDeReçu | String | Type de reçu de vente | Énuméré(e) |
| MerchantName | String | Nom du marchand qui émet le reçu | |
| NuméroDeTéléphoneCommerçant | numéro de téléphone | Numéro de téléphone répertorié du marchand | +1 xxx xxx xxxx |
| Adresse du Marchand | String | Adresse répertoriée du marchand | |
| Date de transaction | Date | Date à laquelle le reçu a été émis | aaaa-mm-dd |
| Heure de transaction | Temps | Heure à laquelle le reçu a été émis | hh-mm-ss (24 heures) |
| Total | Nombre (USD) | Montant total de la transaction sur le reçu. | Nombre flottant à deux décimales |
| Sous-total | Nombre (USD) | Sous-total du reçu, souvent avant l’application des taxes | Float à deux décimales |
| Impôt | Nombre (USD) | Taxe totale sur le reçu (souvent taxe de vente ou équivalente). Renommé en « TotalTax » dans la version du 30-06-2022. | Float à deux décimales |
| Conseil | Nombre (USD) | Conseil inclus par l’acheteur | Float à deux décimales |
| Éléments | Tableau d’objets | Articles de ligne extraits, avec le nom, la quantité, le prix unitaire et le prix total extrait | |
| Nom | String | Description de l’élément. Renommé en « Description » dans la version 2022-06-30. | |
| Quantité | Nombre | Quantité de chaque élément | Float à deux décimales |
| Prix | Nombre | Prix individuel de chaque unité d’article | Float à deux décimales |
| PrixTotal | Nombre | Prix total de l’article de ligne | Float à deux décimales |
Guide de migration et API REST v3.1
- Suivez notre guide de migration Document Intelligence v3.1 pour découvrir comment utiliser la version v3.1 dans vos applications et flux de travail.
Étapes suivantes
Essayez de traiter vos propres formulaires et documents avec Document Intelligence Studio.
Suivez un guide de démarrage rapide Document Intelligence et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.
Essayez de traiter vos propres formulaires et documents avec l'outil d'étiquetage d'exemples de Document Intelligence.
Suivez un guide de démarrage rapide Document Intelligence et commencez à créer une application de traitement de documents dans le langage de développement de votre choix.