Compartilhar via


Transformar arquivos estruturados em tabelas Delta

Use transformações de atalho para converter arquivos estruturados em tabelas Delta que podem ser consultadas. Se os dados de origem já estiverem em um formato tabular como CSV, Parquet ou JSON, as transformações de arquivo copiarão e converterão automaticamente esses dados no formato Delta Lake para que você possa consultá-los usando SQL, Spark ou Power BI sem criar pipelines ETL.

Para arquivos de texto não estruturados que precisam de processamento de IA, como resumo, tradução ou análise de sentimento, consulte as transformações de atalho (alimentadas por IA).

As transformações de atalho permanecem sempre em sincronia com os dados de origem. A computação do Fabric Spark executa a transformação e copia os dados referenciados por um atalho do OneLake em uma tabela Delta gerenciada. Com o tratamento automático de esquemas, recursos de nivelamento profundo e suporte para vários formatos de compactação, as transformações de atalho eliminam a complexidade de criar e manter pipelines ETL.

Por que usar transformações de atalho?

  • Conversão automática – O Fabric copia e converte arquivos de origem no formato Delta sem orquestração manual de pipeline.
  • Sincronização frequente – o Fabric sonda o atalho a cada dois minutos e sincroniza as alterações.
  • Descoberta de pasta recursiva – O Fabric atravessa automaticamente subpastas para detectar e transformar arquivos em toda a hierarquia de diretório.
  • Saída do Delta Lake – a tabela resultante é compatível com qualquer mecanismo do Apache Spark.
  • Governança herdada – o atalho herda a linhagem do OneLake, as permissões e as políticas do Microsoft Purview.

Pré-requisitos

Requisito Detalhes
Microsoft Fabric SKU Capacidade ou teste que suporta cargas de trabalho do Lakehouse.
Dados de origem Uma pasta que contém arquivos CSV, Parquet ou JSON homogêneos.
Função do espaço de trabalho Colaborador ou superior.

Fontes, formatos e destinos com suporte

Todas as fontes de dados com suporte no OneLake têm suporte.

Formato do arquivo de origem Destino Extensões com suporte Tipos de compactação com suporte Observações
CSV (UTF-8, UTF-16) Tabela Delta Lake na pasta Lakehouse/Tables .csv, .txt (delimitador), .tsv (separado por tabulação), .psv (separado por pipe) .csv.gz, .csv.bz2 não há suporte para .csv.zip e .csv.snappy.
Parquet Tabela Delta Lake na pasta Lakehouse/Tables .parquet .parquet.snappy, .parquet.gzip, .parquet.lz4, .parquet.brotli, .parquet.zstd
JSON Tabela Delta Lake na pasta Lakehouse/Tables .json, .jsonl, .ndjson .json.gz, .json.bz2, .jsonl.gz, .ndjson.gz, .jsonl.bz2, .ndjson.bz2 não há suporte para .json.zip e .json.snappy.

Criar um atalho com a transformação de dados

  1. Em seu lakehouse, clique com o botão direito do mouse em uma tabela na seção Tabelas e selecione Novo atalho de tabela. Escolha sua fonte de atalho (por exemplo, Azure Data Lake, Armazenamento de Blobs do Azure, Dataverse, Amazon S3, GCP, SharePoint, OneDrive e muito mais).

    Captura de tela que mostra a criação de

  2. Selecione a pasta com seus arquivos CSV, Parquet ou JSON.

  3. Na etapa de transformação, defina as configurações para a conversão Delta:

    • Delimitador em arquivos CSV – Selecione o caractere usado para separar colunas (vírgula, ponto-e-vírgula, barra vertical, tabulação, ampersand, espaço).
    • Primeira linha como cabeçalhos – indique se a primeira linha contém nomes de coluna.
  4. Revise a configuração de atalho. Na etapa de revisão, você também pode definir a seguinte configuração antes de selecionar Criar:

    • Incluir subpastas – habilitar o processamento recursivo de arquivos em subdiretórios aninhados. Essa opção é selecionada por padrão para novas transformações. Desmarque a caixa de seleção se você quiser processar apenas a pasta de nível superior.
  5. Acompanhe as atualizações e visualize os logs para obter transparência no hub de monitoramento de atalhos do sistema.

A computação do Fabric Spark copia os dados em uma tabela Delta e mostra o progresso no painel Gerenciar atalho .

Como funciona a sincronização

Após a carga inicial, a computação do Fabric Spark:

  • Sonda o alvo de atalho a cada dois minutos.
  • Detecta arquivos novos ou modificados e acrescenta ou substitui linhas adequadamente.
  • Detecta arquivos excluídos e remove linhas correspondentes.

Quando o suporte à subpasta está habilitado, o sistema descobre e processa arquivos recursivamente em todos os subdiretórios aninhados dentro da pasta de destino.

Monitorar e solucionar problemas

As transformações de atalho incluem monitoramento e tratamento de erros para ajudá-lo a controlar o status da ingestão e diagnosticar problemas.

  1. Abra o lakehouse e clique com o botão direito do mouse no atalho que alimenta sua transformação.

  2. Selecione Gerenciar atalho.

  3. No painel de detalhes, você pode exibir:

    • Status – Último resultado da verificação e estado de sincronização atual.

    • Histórico de atualizações – lista cronológica de operações de sincronização com contagens de linhas e quaisquer detalhes de erro.

    • Incluir subpastas – indica se a transformação de subpasta está habilitada (Sim ou Não).

      Captura de tela que mostra o

  4. Exiba mais detalhes nos logs para solucionar problemas.

    Captura de tela que mostra como acessar o

Limitações

As seguintes limitações atualmente se aplicam a transformações de atalho:

  • Formato de origem: Há suporte apenas para arquivos CSV, JSON e Parquet.
    • Tipos de dados sem suporte para CSV: Colunas de tipo de dados mistos, Timestamp_Nanos, tipos lógicos complexos – MAP/LIST/STRUCT, binário bruto
    • Tipos de dados sem suporte para Parquet: Timestamp_nanos, Decimal com INT32/INT64, INT96, tipos inteiros não atribuídos – UINT_8/UINT_16/UINT_64, tipos lógicos complexos – MAP/LIST/STRUCT
    • Tipos de dados sem suporte para JSON: Tipos de dados mistos em uma matriz, blobs binários brutos dentro do JSON, Timestamp_Nanos
  • Consistência do esquema de arquivo: Os arquivos devem compartilhar um esquema idêntico.
  • Disponibilidade do espaço de trabalho: Disponível apenas em itens do Lakehouse (não em armazéns de dados ou bases de dados KQL).
  • Operações de gravação: As transformações são otimizadas para leitura. Não há suporte para instruções DIRECT MERGE INTO ou DELETE na tabela de destino de transformação.
  • Nivelamento do tipo de dados de matriz no JSON: O tipo de dados de matriz é mantido na tabela Delta e é acessível com Spark SQL e PySpark. Para outras transformações, use o Fabric Materialized Lake Views para a camada de prata.
  • Achatamento da profundidade em JSON: As estruturas aninhadas são achatadas em até cinco níveis de profundidade. O aninhamento mais profundo requer pré-processamento.
  • Suporte para pastas aninhadas: As seguintes limitações se aplicam ao processamento de subpastas:
    • Disponível apenas para novas transformações. As transformações existentes não podem habilitar o suporte a subpastas.
    • Depois que o suporte à subpasta estiver habilitado, ele não poderá ser desabilitado.
    • Os atalhos aninhados dentro da pasta de destino não são seguidos. Somente pastas físicas e arquivos são processados.
    • Não há suporte para inclusão seletiva ou exclusão de subpastas específicas.
    • As pastas aninhadas não funcionam com atalhos do SharePoint.

Use o Roteiro de Malha e o Blog de Atualizações do Fabric para saber mais sobre novos recursos e versões.

Limpeza

Para interromper a sincronização, exclua a transformação de atalho do Lakehouse Explorer.

Excluir a transformação não remove os arquivos subjacentes.