Transformer des fichiers structurés en tables Delta

Utilisez des transformations de raccourci pour convertir des fichiers structurés en tables Delta interrogeables. Si vos données sources sont déjà dans un format tabulaire tel que CSV, Parquet, JSON ou Excel, les transformations de fichiers copient et convertissent automatiquement ces données au format Delta Lake afin de pouvoir les interroger à l’aide de SQL, Spark ou Power BI sans générer de pipelines ETL.

Pour les fichiers texte non structurés qui ont besoin d’un traitement IA tel que la synthèse, la traduction ou l’analyse des sentiments, consultez Transformations de raccourci (optimisées par l’IA).

Les transformations de raccourci restent toujours synchronisées avec les données sources. Le calcul Fabric Spark exécute la transformation et copie les données référencées par un raccourci OneLake dans une table Delta managée. Avec la gestion automatique des schémas, les fonctionnalités d’aplatissement profond et la prise en charge de plusieurs formats de compression, les transformations de raccourci éliminent la complexité de la création et de la maintenance des pipelines ETL.

Pourquoi utiliser des transformations de raccourci ?

Conversion automatique : Fabric copie et convertit les fichiers sources au format Delta sans orchestration manuelle des pipelines.
Synchronisation fréquente : Fabric interroge le raccourci toutes les deux minutes et synchronise les modifications.
Découverte de dossiers récursifs : Fabric traverse automatiquement les sous-dossiers pour détecter et transformer des fichiers dans toute la hiérarchie de répertoires.
Sortie Delta Lake : la table résultante est compatible avec n’importe quel moteur Apache Spark.
Gouvernance héritée : le raccourci hérite de la lignée OneLake, des autorisations et des stratégies Microsoft Purview.

Prerequisites

Prérequis	Détails
Microsoft Fabric SKU	Capacité ou essai qui prend en charge les charges de travail Lakehouse .
Données sources	Dossier qui contient des fichiers CSV, Parquet, JSON ou Excel homogènes.
Rôle d’espace de travail	Contributeur ou supérieur.

Formats de fichiers pris en charge

Les transformations de raccourci fonctionnent avec des dossiers à partir de n’importe quelle source de données prise en charge par les raccourcis OneLake.

Format de fichier source	Extensions prises en charge	Types de compression pris en charge	Type de raccourci supporté	Remarques
CSV (UTF-8, UTF-16)	`.csv`, `.txt` (délimiteur), `.tsv` (séparés par des onglets), `.psv` (séparés par un canal)	`.csv.gz`, `.csv.bz2`	Raccourci de tableau	`.csv.zip` et `.csv.snappy` ne sont pas pris en charge.
Parquet	`.parquet`	`.parquet.snappy`, `.parquet.gzip`, , `.parquet.lz4`, `.parquet.brotli`, `.parquet.zstd`	Raccourci de tableau	Aucun.
JSON	`.json`, `.jsonl`, `.ndjson`	`.json.gz`, , `.json.bz2`, `.jsonl.gz.ndjson.gz`, , `.jsonl.bz2.ndjson.bz2`	Raccourci de tableau	`.json.zip` et `.json.snappy` ne sont pas pris en charge.
Excel	`.xlsx`, `.xls`	Sans objet	Raccourci de tableau ou raccourci de schéma	Les raccourcis de tableau combinent des feuilles en une table Delta. Les raccourcis de schéma créent une table Delta par feuille. `.xls` (format binaire hérité) est pris en charge sur une base optimale ; `.xlsx` est le format recommandé.

Note

Les transformations de fichiers Excel sont actuellement en préversion. Les transformations CSV, Parquet et JSON sont généralement disponibles.

Créer un raccourci de table avec transformation de données

Un raccourci de table crée une table Delta dans le dossier Tables d’un lakehouse. Utilisez-le pour transformer des fichiers CSV, Parquet, JSON ou Excel.

Pour les fichiers Excel avec plusieurs feuilles, un raccourci de tableau combine les feuilles sélectionnées dans un tableau Delta. Si vous avez besoin d’une table Delta par feuille, créez un raccourci de schéma à la place.

Dans votre lakehouse, cliquez avec le bouton droit sur un schéma sous le dossier Tables , puis sélectionnez Nouveau raccourci de table. Choisissez votre source de raccourci, telle qu’Azure Data Lake, Stockage Blob Azure, Dataverse, Amazon S3, GCP, SharePoint ou OneDrive.
Sélectionnez le dossier avec vos fichiers CSV, Parquet ou JSON, ou sélectionnez le dossier qui contient vos fichiers .xlsx.
À l’étape Transformation , configurez les paramètres de la conversion Delta :
- Fichiers CSV :
  - Délimiteur – sélectionnez le caractère utilisé pour séparer les colonnes, telles que la virgule, le point-virgule, la barre verticale, la tabulation, l’ampersand ou l’espace.
  - Première ligne en tant qu’en-têtes : indiquez si la première ligne contient des noms de colonnes.
- Fichiers Excel :
  - Première ligne en tant qu’en-têtes : indiquez si la première ligne contient des noms de colonnes.
  - Feuilles à inclure : sélectionnez toutes les feuilles ou uniquement un sous-ensemble de feuilles. Vous pouvez sélectionner des feuilles par nom, par index ou à l’aide de modèles génériques (par exemple, Sales_* correspond aux feuilles comme Sales_Q1 et Sales_2026). La correspondance de caractères génériques est insensible à la casse.
Passez en revue la configuration du raccourci. À l’étape des raccourcis d’aperçu , vous pouvez également configurer ces paramètres avant de sélectionner Créer :
- Nom du raccourci : sélectionnez l’icône de crayon pour modifier le nom du raccourci.
- Inclure des sous-dossiers : activez le traitement récursif des fichiers dans les sous-répertoires imbriqués. Cette option est sélectionnée par défaut pour les nouvelles transformations. Désactivez la case à cocher si vous souhaitez traiter uniquement le dossier de niveau supérieur.
Effectuez le suivi des actualisations et affichez les journaux dans le hub de surveillance des raccourcis.

Le calcul Fabric Spark crée la table Delta et affiche la progression dans le volet Gérer les raccourcis .

Pour les fichiers Excel, le tableau Delta résultant inclut __filepath__ et __sheetname__ les colonnes de métadonnées afin de pouvoir tracer chaque ligne vers son fichier source et sa feuille.

Créer un raccourci de schéma avec la transformation de données

Un raccourci de schéma crée plusieurs tables Delta qui apparaissent sous un nouveau schéma dans le dossier Tables d’un lakehouse. Utilisez-le lorsqu’un classeur Excel comporte plusieurs feuilles et que vous souhaitez un tableau Delta par feuille.

Les raccourcis de schéma avec transformation de données sont actuellement disponibles uniquement pour les fichiers Excel (.xlsx). Ils ont également besoin d'un lakehouse avec des schémas activés. Pour plus d’informations, consultez les schémas Lakehouse.

Dans votre lakehouse, cliquez avec le bouton droit sur le dossier Tables , puis sélectionnez Nouveau raccourci de schéma.
Sélectionnez la source de données pour ce raccourci, puis accédez au dossier qui contient vos .xlsx fichiers.
À l’étape Transformation , configurez les paramètres de la conversion Delta :
- Première ligne en tant qu’en-têtes : indiquez si la première ligne contient des noms de colonnes.
- Feuilles à inclure : sélectionnez toutes les feuilles ou uniquement un sous-ensemble de feuilles. Vous pouvez sélectionner des feuilles par nom, par index ou à l’aide de modèles génériques.
Passez en revue la configuration du raccourci. À l’étape des raccourcis d’aperçu , vous pouvez également configurer ces paramètres avant de sélectionner Créer :
- Nom du raccourci : sélectionnez l’icône de crayon pour modifier le nom du raccourci.
- Inclure des sous-dossiers : activez le traitement récursif des fichiers dans les sous-répertoires imbriqués. Cette option est sélectionnée par défaut pour les nouvelles transformations. Désactivez la case à cocher si vous souhaitez traiter uniquement le dossier de niveau supérieur.
Effectuez le suivi des actualisations et affichez les journaux dans le hub de surveillance des raccourcis.

Le calcul Fabric Spark crée des tables Delta distinctes pour les feuilles sélectionnées et les conserve synchronisées avec les fichiers sources. Les noms de feuilles sont automatiquement adaptés en noms de table valides. Par exemple, une feuille nommée Sales Data (Q1) devient Sales_Data_Q1.

Fonctionnement de la synchronisation

Après le chargement initial, l'instance de calcul Fabric Spark :

Interroge la cible de raccourci toutes les deux minutes.
Détecte les fichiers nouveaux ou modifiés et ajoute ou remplace les lignes en conséquence.
Détecte les fichiers supprimés et supprime les lignes correspondantes.

Lorsque la prise en charge du sous-dossier est activée, le système détecte et traite de manière récursive les fichiers dans tous les sous-répertoires imbriqués dans le dossier cible.

Superviser et dépanner

Les transformations de raccourci incluent la surveillance et la gestion des erreurs pour vous aider à suivre l’état d’ingestion et à diagnostiquer les problèmes.

Ouvrez le lakehouse et cliquez avec le bouton droit sur le raccourci qui alimente votre transformation.
Sélectionnez Gérer le raccourci.
Dans le volet d’informations, vous pouvez afficher :
- État : résultat de la dernière analyse et état de synchronisation actuel.
- Historique des actualisations : liste chronologique des opérations de synchronisation avec le nombre de lignes et tous les détails d’erreur.
- Inclure des sous-dossiers : indique si la transformation du sous-dossier est activée (Oui ou Non).
Consultez plus d’informations dans les journaux d’activité pour résoudre les problèmes.

Limites

Les limitations suivantes s’appliquent actuellement aux transformations de raccourci.

Limitations générales

Format source : Les fichiers CSV, JSON, Parquet et Excel sont pris en charge.
Cohérence du schéma de fichier : Les fichiers doivent partager un schéma identique.
Disponibilité de l’espace de travail : Disponible uniquement dans les éléments Lakehouse (pas les entrepôts de données ou les bases de données KQL).
Opérations d’écriture : Les transformations sont optimisées en lecture. Les instructions MERGE INTO ou DELETE directes sur la table cible de transformation ne sont pas prises en charge.
Disponibilité des raccourcis de schéma : Les raccourcis de schéma pour les transformations de fichiers prennent uniquement en charge les fichiers Excel.

Limitations du fichier CSV

Types de données non pris en charge : Colonnes de type de données mixtes, Timestamp_Nanos, types logiques complexes - MAP/LIST/STRUCT, binaire brut.

Limitations de Parquet

Types de données non pris en charge : Timestamp_nanos, Decimal avec INT32/INT64, INT96, Types entiers non attribués - UINT_8/UINT_16/UINT_64, types logiques complexes - MAP/LIST/STRUCT.

Les limitations de JSON

Types de données non pris en charge : Types de données mixtes dans un tableau, objets blob binaires bruts dans JSON, Timestamp_Nanos.
Aplatissement du type de données de tableau : Le type de données de tableau est conservé dans la table Delta et est accessible avec Spark SQL et PySpark. Pour d’autres transformations, utilisez Fabric Materialized Lake Views pour la couche argent.
Profondeur d’aplatissement : Les structures imbriquées sont aplaties jusqu’à une profondeur de cinq niveaux. L’imbrication plus approfondie nécessite le prétraitement.

Limitations d’Excel

Plage de cellules : Les données sont toujours lues à partir de la cellule A1. Les classeurs dans lesquels les données commencent à une autre cellule ou utilisent des tables ou des plages nommées ne peuvent pas être ciblées.
Ignorer les lignes : Les bannières de titre, les préambules de métadonnées et les résumés de pied de page ci-dessus ou en dessous des données réelles ne peuvent pas être exclues. Ils sont ingérés en tant que lignes de données.
Inférence de schéma : L’inférence de schéma est toujours activée pour les fichiers Excel. Les identificateurs avec des zéros non significatifs (par exemple, des codes ZIP comme 02134 ou des ID d’employé comme 001245) sont convertis en entiers, ce qui supprime les zéros non significatifs.
Feuilles masquées : Toutes les feuilles, y compris les feuilles masquées et système, sont traitées, sauf si elles sont explicitement filtrées par nom ou index.
Mise en forme monétaire : Les cellules au format monétaire (par exemple) $1,234.56sont converties en valeurs numériques simples. Le symbole monétaire est supprimé.
Étiquettes de confidentialité : Les classeurs avec des étiquettes de confidentialité Microsoft Purview ne peuvent pas être traités.
Lignes endommagées : Le lecteur Excel ne prend pas en charge l’isolation des enregistrements endommagés. Les lignes endommagées ou incompatibles de type dans une feuille ne peuvent pas être isolées et journalisées séparément.
Limite de feuille : Les fichiers avec plus de 25 feuilles sont ignorés.
Format hérité :.xls (format binaire hérité) est pris en charge dans la mesure du possible et peut entraîner une réduction de la fidélité pour la mise en forme complexe. .xlsx est le format recommandé.
Évaluation de formule : Spark lit la valeur mise en cache des cellules de formule. Si le classeur n’a pas été enregistré avec des valeurs calculées, les cellules de formule peuvent apparaître vides ou obsolètes.

Limitations du sous-dossier

Disponible uniquement pour les nouvelles transformations. Les transformations existantes ne peuvent pas activer la prise en charge des sous-dossiers.
Une fois que le support des sous-dossiers est activé, il ne peut pas être désactivé.
Les raccourcis imbriqués dans le dossier cible ne sont pas suivis. Seuls les dossiers physiques et les fichiers sont traités.
L’inclusion sélective ou l’exclusion de sous-dossiers spécifiques n’est pas supportée.
Les dossiers imbriqués ne fonctionnent pas avec les raccourcis SharePoint.

Utilisez le Fabric Roadmap et le Fabric Updates Blog pour découvrir les nouvelles fonctionnalités et versions.

Nettoyage

Pour arrêter la synchronisation, supprimez la transformation de raccourci de Lakehouse Explorer.

La suppression de la transformation ne supprime pas les fichiers sous-jacents.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-21