Transformación de archivos estructurados en tablas delta

Use transformaciones de acceso directo para convertir archivos estructurados en tablas delta consultables. Si los datos de origen ya están en un formato tabular como CSV, Parquet, JSON o Excel, las transformaciones de archivos copian y convierten automáticamente esos datos en formato Delta Lake para poder consultarlos mediante SQL, Spark o Power BI sin compilar canalizaciones ETL.

Para los archivos de texto no estructurados que necesitan procesamiento de inteligencia artificial como resumen, traducción o análisis de sentimiento, consulte Transformaciones de acceso directo (con tecnología de IA).

Las transformaciones de acceso directo permanecen siempre sincronizadas con los datos de origen. El proceso de Spark de Fabric ejecuta la transformación y copia los datos a los que hace referencia un acceso directo de OneLake en una tabla delta administrada. Con manejo automático de esquemas, funcionalidades de aplanamiento profundo y compatibilidad con varios formatos de compresión, las transformaciones simplificadas eliminan la complejidad de la construcción y el mantenimiento de canales ETL.

¿Por qué usar transformaciones de atajos?

  • Conversión automática : Fabric copia y convierte archivos de origen en formato Delta sin orquestación de canalización manual.
  • Sincronización frecuente : Fabric sondea el acceso directo cada dos minutos y sincroniza los cambios.
  • Detección de carpetas recursivas : Fabric recorre automáticamente las subcarpetas para detectar y transformar archivos en toda la jerarquía de directorios.
  • Salida de Delta Lake : la tabla resultante es compatible con cualquier motor de Apache Spark.
  • Governanza heredada: el acceso directo hereda el linaje de OneLake, los permisos y las políticas de Microsoft Purview.

Prerrequisitos

Requisito Detalles
Microsoft Fabric Código de Producto Capacidad o prueba que admite cargas de trabajo de Lakehouse .
Datos de origen Carpeta que contiene archivos CSV, Parquet, JSON o Excel homogéneos.
Rol de área de trabajo Colaborador o superior.

Formatos de archivos admitidos

Las transformaciones de acceso directo funcionan con carpetas de cualquier origen de datos compatible con los accesos directos de OneLake.

Formato de archivo de origen Extensiones compatibles Tipos de compresión admitidos Tipo de acceso directo admitido Notas
CSV (UTF-8, UTF-16) .csv, .txt (delimitador), .tsv (separados por tabulaciones), .psv (separados por canalizaciones) .csv.gz, .csv.bz2 Acceso directo para tabla No se admiten .csv.zip ni .csv.snappy.
Parquet .parquet .parquet.snappy, .parquet.gzip, .parquet.lz4, , .parquet.brotli, .parquet.zstd Acceso directo para tabla Ninguno.
JSON .json, , .jsonl, .ndjson .json.gz, .json.bz2, .jsonl.gz, .ndjson.gz, , .jsonl.bz2, .ndjson.bz2 Acceso directo para tabla No se admiten .json.zip ni .json.snappy.
Excel .xlsx, .xls No es aplicable Atajo de tabla o esquema Los métodos abreviados de tabla combinan hojas en una tabla Delta. Los métodos abreviados de esquema crean una tabla delta por hoja. .xls (formato binario heredado) es compatible con el mejor esfuerzo; .xlsx es el formato recomendado.

Nota:

Las transformaciones de archivos de Excel se encuentran actualmente en versión preliminar. Las transformaciones CSV, Parquet y JSON están disponibles con carácter general.

Crear un acceso directo a tabla con transformación de datos

Un acceso directo de tabla crea una tabla Delta en la carpeta Tablas de un lago. Úselo para transformar archivos CSV, Parquet, JSON o Excel.

En el caso de los archivos de Excel con varias hojas, un acceso directo de tabla combina las hojas seleccionadas en una tabla Delta. Si necesita una tabla Delta por hoja, cree un acceso directo de esquema en su lugar.

  1. En lakehouse, haga clic con el botón derecho en un esquema en la carpeta Tablas y, a continuación, seleccione Nuevo acceso directo de tabla. Elija el origen del acceso directo, como Azure Data Lake, Azure Blob Storage, Dataverse, Amazon S3, GCP, SharePoint o OneDrive.

    Captura de pantalla que muestra la creación de

  2. Seleccione la carpeta con los archivos CSV, Parquet o JSON, o seleccione la carpeta que contiene los archivos .xlsx.

  3. En el paso Transformar , configure las opciones para la conversión delta:

    • Archivos CSV:

      • Delimitador – seleccione el carácter usado para separar columnas, como coma, punto y coma, barra, tabulación, ampersand o espacio.
      • Primera fila como encabezados : indique si la primera fila contiene nombres de columna.
    • Archivos de Excel:

      • Primera fila como encabezados : indique si la primera fila contiene nombres de columna.
      • Hojas que se van a incluir : seleccione todas las hojas o solo un subconjunto de hojas. Puede seleccionar hojas por nombre, por índice o mediante patrones comodín (por ejemplo, Sales_* coincide con hojas como Sales_Q1 y Sales_2026). La coincidencia de caracteres comodín no distingue mayúsculas de minúsculas.
  4. Revisa la configuración del acceso directo. En el paso Vista previa de accesos directos , también puede configurar estas opciones antes de seleccionar Crear:

    • Nombre del acceso directo: seleccione el icono de lápiz para editar el nombre del acceso directo.
    • Incluir subcarpetas : habilite el procesamiento recursivo de archivos en subdirectorios anidados. Esta opción está seleccionada de forma predeterminada para las nuevas transformaciones. Desactive la casilla si desea procesar solo la carpeta de nivel superior.
  5. Realice un seguimiento de las actualizaciones y vea los registros en Administrar el centro de supervisión de acceso directo.

El servicio de Spark de Fabric crea la tabla Delta y muestra el progreso en el panel Administración de accesos directos.

En el caso de los archivos de Excel, la tabla Delta resultante incluye __filepath__ y __sheetname__ columnas de metadatos para que pueda realizar un seguimiento de todas las filas a su archivo y hoja de origen.

Crear un atajo de esquema con transformación de datos

Un atajo de esquema crea varias tablas Delta que aparecen dentro de un nuevo esquema en la carpeta Tablas de un lakehouse. Úselo cuando un libro de Excel tenga varias hojas y desee una tabla Delta por hoja.

Los métodos abreviados de esquema con transformación de datos solo están disponibles actualmente para archivos de Excel (.xlsx). También requieren una instancia de Lakehouse con esquemas habilitados. Para más información, consulte Esquemas de Lakehouse.

  1. En lakehouse, haga clic con el botón derecho en la carpeta Tablas y, a continuación, seleccione Nuevo acceso directo de esquema.

    Captura de pantalla que muestra la creación de un

  2. Seleccione el origen de datos para este acceso directo y vaya a la carpeta que contiene los .xlsx archivos.

  3. En el paso Transformar , configure las opciones para la conversión delta:

    • Primera fila como encabezados : indique si la primera fila contiene nombres de columna.
    • Hojas que se van a incluir : seleccione todas las hojas o solo un subconjunto de hojas. Puede seleccionar hojas por nombre, por índice o mediante patrones comodín.

    Captura de pantalla que muestra las opciones de transformación de un acceso directo de esquema.

  4. Revisa la configuración del acceso directo. En el paso Vista previa de accesos directos , también puede configurar estas opciones antes de seleccionar Crear:

    • Nombre del acceso directo: seleccione el icono de lápiz para editar el nombre del acceso directo.
    • Incluir subcarpetas : habilite el procesamiento recursivo de archivos en subdirectorios anidados. Esta opción está seleccionada de forma predeterminada para las nuevas transformaciones. Desactive la casilla si desea procesar solo la carpeta de nivel superior.
  5. Realice un seguimiento de las actualizaciones y vea los registros en Administrar el centro de supervisión de acceso directo.

El proceso de Spark de Fabric crea tablas Delta independientes para las hojas seleccionadas y las mantiene sincronizadas con los archivos de origen. Los nombres de hoja se sanearán automáticamente a los nombres de tabla válidos. Por ejemplo, una hoja denominada Sales Data (Q1) se convierte en Sales_Data_Q1.

Funcionamiento de la sincronización

Después de la carga inicial, Fabric Spark compute:

  • Sondea el destino del acceso directo cada dos minutos.
  • Detecta archivos nuevos o modificados y anexa o sobrescribe filas en consecuencia.
  • Detecta los archivos eliminados y quita las filas correspondientes.

Cuando la compatibilidad con subcarpetas está habilitada, el sistema detecta y procesa de forma recursiva los archivos en todos los subdirectorios anidados dentro de la carpeta de destino.

Supervisión y solución de problemas

Las transformaciones de acceso directo incluyen supervisión y control de errores para ayudarle a realizar un seguimiento del estado de ingesta y diagnosticar problemas.

  1. Abra el lakehouse y haga clic con el botón derecho en el acceso directo que impulsa la transformación.

  2. Seleccione Administrar acceso directo.

  3. En el panel de detalles, puede ver:

    • Estado : último resultado del examen y estado de sincronización actual.

    • Historial de actualizaciones : lista cronológica de operaciones de sincronización con recuentos de filas y detalles de errores.

    • Incluir subcarpetas : indica si la transformación de subcarpeta está habilitada ( o No).

      Captura de pantalla que muestra

  4. Vea más detalles en los registros para solucionar problemas.

    Captura de pantalla que muestra cómo acceder a

Limitaciones

Actualmente, las siguientes limitaciones se aplican a las transformaciones de acceso directo.

Limitaciones generales

  • Formato de origen: Se admiten archivos CSV, JSON, Parquet y Excel.
  • Coherencia del esquema de archivo: Los archivos deben compartir un esquema idéntico.
  • Disponibilidad del área de trabajo: Solo está disponible en elementos de Lakehouse (no almacenes de datos ni bases de datos KQL).
  • Operaciones de escritura: Las transformaciones están optimizadas para lectura. No se admiten instrucciones MERGE INTO o DELETE directas en la tabla de destino de transformación.
  • Disponibilidad de accesos directos de esquema: Los accesos directos de esquema para las transformaciones de archivos solo admiten archivos de Excel.

Limitaciones de CSV

  • Tipos de datos no admitidos: Columnas de tipo de datos mixtos, Timestamp_Nanos, Tipos lógicos complejos: MAP/LIST/STRUCT, Binario sin formato.

Limitaciones de Parquet

  • Tipos de datos no admitidos: Timestamp_nanos, Decimal con INT32/INT64, INT96, Tipos enteros sin asignar: UINT_8/UINT_16/UINT_64, Tipos lógicos complejos - MAP/LIST/STRUCT.

Limitaciones de JSON

  • Tipos de datos no admitidos: Tipos de datos mixtos en una matriz, blobs binarios crudos dentro de JSON, Timestamp_Nanos.
  • Aplanamiento del tipo de datos de array: El tipo de datos de array se conserva en la tabla Delta y es accesible con Spark SQL y PySpark. Para otras transformaciones, use Fabric Materialized Lake Views para la capa de plata.
  • Profundidad de aplanamiento: Las estructuras anidadas se aplanan hasta cinco niveles de profundidad. El anidamiento más profundo requiere preprocesamiento.

Limitaciones de Excel

  • Rango de celdas: Los datos siempre se leen a partir de la celda A1. Los libros de trabajo en los que los datos comienzan en una celda diferente o utilizan tablas o rangos con nombre no se pueden seleccionar como objetivo.
  • Omitir filas: Los banners de título, los preámbulos de metadatos y los resúmenes de pie de página que están por encima o por debajo de los datos reales no se pueden excluir. Se ingieren como filas de datos.
  • Inferencia de esquema: La inferencia de esquemas siempre está habilitada para los archivos de Excel. Los identificadores con ceros iniciales (por ejemplo, códigos postales como 02134 o identificadores de empleado como 001245) se convierten en enteros, lo que quita los ceros iniciales.
  • Hojas ocultas: Todas las hojas, incluidas las hojas ocultas y del sistema, se procesan a menos que se filtren explícitamente por nombre o índice.
  • Formato de moneda: Las celdas con formato de moneda (por ejemplo, $1,234.56) se convierten en valores numéricos simples. El símbolo de moneda se quita.
  • Etiquetas de confidencialidad: Los libros con etiquetas de confidencialidad de Microsoft Purview no se pueden procesar.
  • Filas dañadas: El lector de Excel no admite el aislamiento de registros dañados. Las filas dañadas o con errores de tipo dentro de una hoja no se pueden aislar ni registrar por separado.
  • Límite de hoja: Se omiten los archivos con más de 25 hojas.
  • Formato heredado:.xls (formato binario heredado) se admite en la medida de lo posible y podría tener reducida la fidelidad para el formato complejo. .xlsx es el formato recomendado.
  • Evaluación de fórmulas: Spark lee el valor almacenado en caché de las celdas de fórmula. Si el libro no se guardó con valores calculados, es posible que las celdas de fórmula aparezcan vacías o obsoletas.

Limitaciones de las subcarpetas

  • Solo está disponible para nuevas transformaciones. Las transformaciones existentes no pueden habilitar la compatibilidad con subcarpetas.
  • Una vez habilitado el soporte para subcarpetas, no se puede deshabilitar.
  • No se siguen los accesos directos anidados dentro de la carpeta de destino. Solo se procesan carpetas físicas y archivos.
  • No se admite la inclusión o exclusión selectiva de subcarpetas específicas.
  • Las carpetas anidadas no funcionan con accesos directos de SharePoint.

Usa la hoja de ruta de Fabric y el blog de actualizaciones de Fabric para obtener información sobre las nuevas características y versiones.

Limpieza

Para detener la sincronización, elimine la transformación de acceso directo del Explorador de Lakehouse.

Al eliminar la transformación no se quitan los archivos subyacentes.