Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Gorjeta
Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.
Siga este artigo quando quiser analisar os ficheiros Excel. O serviço suporta ".xls" e ".xlsx".
Excel formato é suportado para os seguintes conectores:
Nota
O formato ".xls" não é suportado durante o uso de HTTP.
Propriedades do conjunto de dados
Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte o artigo Conjuntos de dados. Esta secção fornece uma lista de propriedades suportadas pelo conjunto de dados Excel.
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| tipo | A propriedade de tipo do conjunto de dados deve ser definida para Excel. | Sim |
| localização | Configurações de localização do(s) arquivo(s). Cada conector com base em ficheiro tem o seu próprio tipo de localização e propriedades suportadas em location. |
Sim |
| Nome da Folha | O nome da folha de cálculo Excel para ler dados. | Especificar sheetName ou sheetIndex |
| sheetIndex | O índice da folha de trabalho Excel para ler dados, começando a partir de 0. | Especificar sheetName ou sheetIndex |
| intervalo | O intervalo de células na planilha fornecida para localizar os dados seletivos, por exemplo: - Não especificado: lê toda a folha de cálculo no formato de tabela, começando na primeira linha e coluna não vazias. - A3: lê uma tabela a partir da célula dada, deteta dinamicamente todas as linhas abaixo e todas as colunas à direita- A3:H5: lê este intervalo fixo como uma tabela- A3:A3: lê esta única célula |
Não |
| primeira linha como cabeçalho | Especifica se a primeira linha na planilha/intervalo determinado deve ser tratada como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são true e false (padrão). |
Não |
| valor nulo | Especifica a representação da cadeia de caracteres do valor nulo. O valor padrão é cadeia de caracteres vazia. |
Não |
| compressão | Grupo de propriedades para configurar a compactação de arquivos. Configure esta seção quando quiser fazer compressão/descompactação durante a execução da atividade. | Não |
| tipo (em compression) |
O codec de compressão usado para ler/gravar arquivos JSON. Os valores permitidos são bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy ou lz4. O padrão não é compactado. Atualmente, a atividade de cópia não suporta "snappy" e "lz4", e o mapeamento do fluxo de dados não suporta "ZipDeflate", "TarGzip" e "Tar". Observe que, ao usar a atividade de cópia para descompactar o(s) arquivo(s) ZipDeflate e gravar no armazenamento de dados do coletor baseado em arquivo, os arquivos são extraídos para a pasta: <path specified in dataset>/<folder named as source zip file>/. |
N.º |
| nível (em compression) |
A taxa de compressão. Os valores permitidos são Ótimo ou Mais Rápido. - Mais rápido: A operação de compressão deve ser concluída o mais rapidamente possível, mesmo que o ficheiro resultante não esteja comprimido da melhor forma. - Ideal: A operação de compressão deve ser compactada de forma ideal, mesmo que a operação demore mais tempo para ser concluída. Para obter mais informações, consulte o tópico Nível de compactação. |
Não |
Abaixo está um exemplo de conjunto de dados Excel no Armazenamento de Blobs do Azure:
{
"name": "ExcelDataset",
"properties": {
"type": "Excel",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"sheetName": "MyWorksheet",
"range": "A3:H5",
"firstRowAsHeader": true
}
}
}
Propriedades da atividade de cópia
Para obter uma lista completa de seções e propriedades disponíveis para definir atividades, consulte o artigo Pipelines . Esta secção fornece uma lista das propriedades suportadas pela fonte Excel.
Excel como fonte
As propriedades a seguir são suportadas na seção copy activity *source* .
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| tipo | A propriedade type da fonte de atividade de cópia deve ser definida como ExcelSource. | Sim |
| configurações da loja | Um grupo de propriedades sobre como ler dados de um armazenamento de dados. Cada conector baseado em arquivo tem as suas próprias configurações de leitura suportadas em storeSettings. |
Não |
"activities": [
{
"name": "CopyFromExcel",
"type": "Copy",
"typeProperties": {
"source": {
"type": "ExcelSource",
"storeSettings": {
"type": "AzureBlobStorageReadSettings",
"recursive": true
}
},
...
}
...
}
]
Mapeando propriedades de fluxo de dados
No mapeamento de fluxos de dados, pode ler o formato Excel nos seguintes tipos de armazenamento de dados: Armazenamento de Blobs do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 e SFTP. Pode apontar para ficheiros Excel usando um conjunto de dados do Excel ou usando um conjunto de dados incorporado inline.
Propriedades de origem
A tabela abaixo lista as propriedades suportadas por uma fonte Excel. Você pode editar essas propriedades na guia Opções de origem. Ao usar o conjunto de dados inline, você verá configurações de arquivo adicionais, que são as mesmas que as propriedades descritas na seção propriedades do conjunto de dados.
| Nome | Descrição | Obrigatório | Valores permitidos | Propriedade do script de fluxo de dados |
|---|---|---|---|---|
| Caminhos com coringa | Todos os ficheiros correspondentes ao caminho com caractere coringa serão processados. Altera a pasta e o caminho definidos no conjunto de dados. | não | String[] | wildcardCaminhos |
| Caminho da raiz da partição | Para dados de arquivo particionados, você pode inserir um caminho raiz de partição para ler pastas particionadas como colunas | não | String | partitionRootPath |
| Lista de arquivos | Se sua fonte está apontando para um arquivo de texto que lista os arquivos a serem processados | não |
true ou false |
Lista de arquivos |
| Coluna para armazenar o nome do arquivo | Criar uma nova coluna com o nome do arquivo de origem e o caminho | não | String | rowUrlColumn |
| Após a conclusão | Exclua ou mova os arquivos após o processamento. O caminho do arquivo começa a partir da raiz do contêiner | não | Eliminar: true ou false Movimentar-se: ['<from>', '<to>'] |
purgeFiles moveFiles |
| Filtrar por última modificação | Opte por filtrar ficheiros com base na data em que foram alterados pela última vez | não | Timestamp | modificadoDepois modificadoAntes |
| Permitir que nenhum ficheiro seja encontrado | Se verdadeiro, um erro não é gerado se nenhum ficheiro for encontrado. | não |
true ou false |
ignorarNenhumArquivoEncontrado |
Exemplo de fonte
A imagem abaixo é um exemplo de uma configuração de origem Excel no mapeamento de fluxos de dados usando o modo dataset.
O script de fluxo de dados associado é:
source(allowSchemaDrift: true,
validateSchema: false,
wildcardPaths:['*.xls']) ~> ExcelSource
Se você usar o conjunto de dados embutido, verá as seguintes opções de origem no mapeamento do fluxo de dados.
O script de fluxo de dados associado é:
source(allowSchemaDrift: true,
validateSchema: false,
format: 'excel',
fileSystem: 'container',
folderPath: 'path',
fileName: 'sample.xls',
sheetName: 'worksheet',
firstRowAsHeader: true) ~> ExcelSourceInlineDataset
Nota
O mapeamento do fluxo de dados não suporta a leitura de ficheiros Excel protegidos, pois estes ficheiros podem conter avisos de confidencialidade ou impor restrições de acesso específicas que limitam o acesso ao seu conteúdo.
Lidar com ficheiros Excel muito grandes
O conector Excel não suporta leitura em streaming para a atividade Copy e tem de carregar todo o ficheiro na memória antes que os dados possam ser lidos. Para importar o esquema, pré-visualizar dados ou atualizar um conjunto de dados Excel, os dados devem ser devolvidos antes do tempo limite do pedido http (100s). Para ficheiros Excel grandes, estas operações podem não terminar dentro desse período, causando um erro de timeout. Se quiser mover ficheiros grandes de Excel (>100MB) para outro armazenamento de dados, pode usar uma das seguintes opções para contornar esta limitação:
- Use o runtime de integração auto-hospedado (SHIR), em seguida, use a atividade de cópia para mover o ficheiro Excel grande para outro armazenamento de dados com o SHIR.
- Divide o ficheiro Excel grande em vários mais pequenos, depois usa a atividade Copy para mover a pasta que contém os ficheiros.
- Use uma atividade de fluxo de dados para mover o ficheiro Excel grande para outro armazenamento de dados. O Dataflow suporta leitura em streaming para Excel e pode mover/transferir ficheiros grandes rapidamente.
- Converta manualmente o ficheiro Excel grande para formato CSV e depois use uma atividade Copy para mover o ficheiro.