Formato de ficheiro Excel no Azure Data Factory e Azure Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

Siga este artigo quando quiser analisar os ficheiros Excel. O serviço suporta ".xls" e ".xlsx".

Excel formato é suportado para os seguintes conectores: Amazon S3, Armazenamento Compatível com Amazon S3, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Ficheiros do Azure, Sistema de Ficheiros, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage e SFTP. É suportado como fonte, mas não como sumidouro.

Nota

O formato ".xls" não é suportado durante o uso de HTTP.

Propriedades do conjunto de dados

Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte o artigo Conjuntos de dados. Esta secção fornece uma lista de propriedades suportadas pelo conjunto de dados Excel.

Propriedade	Descrição	Obrigatório
tipo	A propriedade de tipo do conjunto de dados deve ser definida para Excel.	Sim
localização	Configurações de localização do(s) arquivo(s). Cada conector com base em ficheiro tem o seu próprio tipo de localização e propriedades suportadas em `location`.	Sim
Nome da Folha	O nome da folha de cálculo Excel para ler dados.	Especificar `sheetName` ou `sheetIndex`
sheetIndex	O índice da folha de trabalho Excel para ler dados, começando a partir de 0.	Especificar `sheetName` ou `sheetIndex`
intervalo	O intervalo de células na planilha fornecida para localizar os dados seletivos, por exemplo: - Não especificado: lê toda a folha de cálculo no formato de tabela, começando na primeira linha e coluna não vazias. - `A3`: lê uma tabela a partir da célula dada, deteta dinamicamente todas as linhas abaixo e todas as colunas à direita - `A3:H5`: lê este intervalo fixo como uma tabela - `A3:A3`: lê esta única célula	Não
primeira linha como cabeçalho	Especifica se a primeira linha na planilha/intervalo determinado deve ser tratada como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são true e false (padrão).	Não
valor nulo	Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia.	Não
compressão	Grupo de propriedades para configurar a compactação de arquivos. Configure esta seção quando quiser fazer compressão/descompactação durante a execução da atividade.	Não
tipo (em `compression`)	O codec de compressão usado para ler/gravar arquivos JSON. Os valores permitidos são bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy ou lz4. O padrão não é compactado. Atualmente, a atividade de cópia não suporta "snappy" e "lz4", e o mapeamento do fluxo de dados não suporta "ZipDeflate", "TarGzip" e "Tar". Observe que, ao usar a atividade de cópia para descompactar o(s) arquivo(s) ZipDeflate e gravar no armazenamento de dados do coletor baseado em arquivo, os arquivos são extraídos para a pasta: `<path specified in dataset>/<folder named as source zip file>/`.	N.º
nível (em `compression`)	A taxa de compressão. Os valores permitidos são Ótimo ou Mais Rápido. - Mais rápido: A operação de compressão deve ser concluída o mais rapidamente possível, mesmo que o ficheiro resultante não esteja comprimido da melhor forma. - Ideal: A operação de compressão deve ser compactada de forma ideal, mesmo que a operação demore mais tempo para ser concluída. Para obter mais informações, consulte o tópico Nível de compactação.	Não

Abaixo está um exemplo de conjunto de dados Excel no Armazenamento de Blobs do Azure:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Propriedades da atividade de cópia

Para obter uma lista completa de seções e propriedades disponíveis para definir atividades, consulte o artigo Pipelines . Esta secção fornece uma lista das propriedades suportadas pela fonte Excel.

Excel como fonte

As propriedades a seguir são suportadas na seção copy activity *source* .

Propriedade	Descrição	Obrigatório
tipo	A propriedade type da fonte de atividade de cópia deve ser definida como ExcelSource.	Sim
configurações da loja	Um grupo de propriedades sobre como ler dados de um armazenamento de dados. Cada conector baseado em arquivo tem as suas próprias configurações de leitura suportadas em `storeSettings`.	Não

"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Mapeando propriedades de fluxo de dados

No mapeamento de fluxos de dados, pode ler o formato Excel nos seguintes tipos de armazenamento de dados: Armazenamento de Blobs do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 e SFTP. Pode apontar para ficheiros Excel usando um conjunto de dados do Excel ou usando um conjunto de dados incorporado inline.

Propriedades de origem

A tabela abaixo lista as propriedades suportadas por uma fonte Excel. Você pode editar essas propriedades na guia Opções de origem. Ao usar o conjunto de dados inline, você verá configurações de arquivo adicionais, que são as mesmas que as propriedades descritas na seção propriedades do conjunto de dados.

Nome	Descrição	Obrigatório	Valores permitidos	Propriedade do script de fluxo de dados
Caminhos com coringa	Todos os ficheiros correspondentes ao caminho com caractere coringa serão processados. Altera a pasta e o caminho definidos no conjunto de dados.	não	String[]	wildcardCaminhos
Caminho da raiz da partição	Para dados de arquivo particionados, você pode inserir um caminho raiz de partição para ler pastas particionadas como colunas	não	String	partitionRootPath
Lista de arquivos	Se sua fonte está apontando para um arquivo de texto que lista os arquivos a serem processados	não	`true` ou `false`	Lista de arquivos
Coluna para armazenar o nome do arquivo	Criar uma nova coluna com o nome do arquivo de origem e o caminho	não	String	rowUrlColumn
Após a conclusão	Exclua ou mova os arquivos após o processamento. O caminho do arquivo começa a partir da raiz do contêiner	não	Eliminar: `true` ou `false` Movimentar-se: `['<from>', '<to>']`	purgeFiles moveFiles
Filtrar por última modificação	Opte por filtrar ficheiros com base na data em que foram alterados pela última vez	não	Timestamp	modificadoDepois modificadoAntes
Permitir que nenhum ficheiro seja encontrado	Se verdadeiro, um erro não é gerado se nenhum ficheiro for encontrado.	não	`true` ou `false`	ignorarNenhumArquivoEncontrado

Exemplo de fonte

A imagem abaixo é um exemplo de uma configuração de origem Excel no mapeamento de fluxos de dados usando o modo dataset.

Excel fonte

O script de fluxo de dados associado é:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Se você usar o conjunto de dados embutido, verá as seguintes opções de origem no mapeamento do fluxo de dados.

Conjunto de dados fonte inline do Excel

O script de fluxo de dados associado é:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Nota

O mapeamento do fluxo de dados não suporta a leitura de ficheiros Excel protegidos, pois estes ficheiros podem conter avisos de confidencialidade ou impor restrições de acesso específicas que limitam o acesso ao seu conteúdo.

Lidar com ficheiros Excel muito grandes

O conector Excel não suporta leitura em streaming para a atividade Copy e tem de carregar todo o ficheiro na memória antes que os dados possam ser lidos. Para importar o esquema, pré-visualizar dados ou atualizar um conjunto de dados Excel, os dados devem ser devolvidos antes do tempo limite do pedido http (100s). Para ficheiros Excel grandes, estas operações podem não terminar dentro desse período, causando um erro de timeout. Se quiser mover ficheiros grandes de Excel (>100MB) para outro armazenamento de dados, pode usar uma das seguintes opções para contornar esta limitação:

Use o runtime de integração auto-hospedado (SHIR), em seguida, use a atividade de cópia para mover o ficheiro Excel grande para outro armazenamento de dados com o SHIR.
Divide o ficheiro Excel grande em vários mais pequenos, depois usa a atividade Copy para mover a pasta que contém os ficheiros.
Use uma atividade de fluxo de dados para mover o ficheiro Excel grande para outro armazenamento de dados. O Dataflow suporta leitura em streaming para Excel e pode mover/transferir ficheiros grandes rapidamente.
Converta manualmente o ficheiro Excel grande para formato CSV e depois use uma atividade Copy para mover o ficheiro.

Comentários

Esta página foi útil?

Last updated on 2026-04-07