Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
ORC (Optimized Row Columnar) é um formato de armazenamento columnar projetado para processamento eficiente de dados em grande escala em cargas de trabalho do Hadoop. Este artigo descreve como configurar o formato ORC em um pipeline de atividade de cópia no Data Factory em Microsoft Fabric.
Funcionalidades com suporte
O formato ORC é compatível com as seguintes atividades e conectores como origem e destino.
| Categoria | Conector/Atividade |
|---|---|
| Conector suportado | Amazônia S3 |
| Compatível com o Amazon S3 | |
| Armazenamento de Blobs do Azure | |
| Azure Data Lake Storage Gen2 | |
| Arquivos do Azure | |
| Sistema de arquivos | |
| FTP | |
| Google Cloud Storage | |
| HTTP | |
| Arquivos do Lakehouse | |
| Armazenamento em Nuvem Oracle | |
| SFTP | |
| Atividade com suporte | Atividade de cópia (fonte/destino) |
| Atividade de pesquisa | |
| Atividade GetMetadata | |
| Excluir atividade de dados |
Formato ORC na atividade de cópia
Para configurar o formato ORC, escolha sua conexão na origem ou no destino de uma atividade de cópia do pipeline e selecione ORC na lista suspensa de formato de arquivo. Selecione Configurações para configuração adicional desse formato.
Formato OCR como origem
Depois de selecionar Configurações na seção Formato de arquivo, as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.
- Tipo de compactação: Escolha o codec de compactação usado para ler arquivos ORC na lista suspensa. Você pode escolher entre Nenhum, zlib ou snappy.
Formato ORC como destino
Depois de selecionar Configurações, as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.
- Tipo de compactação: Escolha o codec de compactação usado para gravar arquivos ORC na lista suspensa. Você pode escolher entre Nenhum, zlib ou snappy.
Nas configurações Avançadas na guia Destino, as seguintes propriedades relacionadas ao formato ORC são exibidas.
- Máximo de linhas por arquivo: ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique as linhas máximas que você deseja gravar por arquivo.
-
Prefixo de nome de arquivo: aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão:
<fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é um repositório baseado em arquivo ou um armazenamento de dados habilitado para uma opção de partição.
Propriedades da atividade de cópia ORC
ORC como fonte
As seguintes propriedades são suportadas na seção Origem da atividade de cópia ao usar o formato ORC.
| Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
|---|---|---|---|---|
| Formato de arquivo | O formato de arquivo que você deseja usar. | ORC | Sim | tipo (em datasetSettings):Orc |
| Tipo de compactação | O codec de compactação usado para ler arquivos ORC. |
Nenhum zlib rápido |
Não | orcCompressionCodec: nenhum zlib ágil |
ORC como destino
As propriedades a seguir são compatíveis na seção Destino da atividade de cópia ao usar o formato ORC.
| Nome | Descrição | Valor | Obrigatório | Propriedade de script JSON |
|---|---|---|---|---|
| Formato de arquivo | O formato de arquivo que você deseja usar. | ORC | Sim | tipo (em datasetSettings):Orc |
| Tipo de compactação | O codec de compactação usado para gravar arquivos ORC. |
Nenhum zlib rápido |
Não | orcCompressionCodec: nenhum zlib ágil |
| Máximo de linhas por arquivo | Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique as linhas máximas que você deseja gravar por arquivo. | <número máximo de linhas por arquivo> | Não | máximoDeLinhasPorArquivo |
| Prefixo de nome de arquivo | Aplicável quando o Máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é um repositório baseado em arquivo ou um armazenamento de dados habilitado para uma opção de partição. |
<o prefixo do seu nome de arquivo > | Não | fileNamePrefix |