Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo descreve como usar a atividade de cópia em um pipeline para copiar dados do Amazon S3 Compatible.
Permissões necessárias
Para copiar dados do Amazon S3 Compatible, verifique se você recebeu as seguintes permissões para operações de objeto compatíveis com o Amazon S3: s3:GetObject e s3:GetObjectVersion.
Para copiar dados para o Amazon S3 Compatible, verifique se você recebeu a s3:PutObject permissão para operações de objeto compatíveis com o Amazon S3.
Além disso, s3:ListAllMyBuckets e as s3:ListBucket/s3:GetBucketLocation permissões são necessárias para operações como testar a conexão e navegar como root.
Para obter a lista completa de permissões compatíveis com o Amazon S3, vá para Especificar permissões em uma política no site da AWS.
Formato compatível
O Amazon S3 Compatible dá suporte aos seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato do Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração com suporte
Para a configuração de cada guia em atividade Copy, vá para as seções a seguir, respectivamente.
Geral
Consulte as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.
Source
As seguintes propriedades são suportadas para Amazon S3 Compatible na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Conexão: selecione uma conexão compatível com o Amazon S3 na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão compatível com o Amazon S3 selecionando Nova.
Tipo de conexão: selecione Amazon S3 Compatível com seu tipo de conexão.
Tipo de caminho de arquivo: você pode escolher Caminho do arquivo, Prefixo, Caminho de arquivo curinga ou Lista de arquivos. A configuração para cada opção é:
Caminho do arquivo: se você escolher esse tipo, os dados poderão ser copiados do bucket fornecido ou do bucket e do caminho de pasta especificados.
Prefixo: se você escolher esse tipo, especifique o Bucket e o Prefixo.
Bucket: especifique o nome do bucket do Armazenamento Compatível com S3. É necessário.
Prefixo: especifique o prefixo para o nome da chave de Armazenamento Compatível com S3 no bucket fornecido para filtrar arquivos de Armazenamento Compatível com S3 de origem. Chaves de Armazenamento Compatíveis com S3, cujos nomes começam com
bucket/this_prefix, são selecionadas. Ele utiliza o filtro do lado do servidor do Armazenamento Compatível com S3, que fornece melhor desempenho do que um filtro curinga.Quando você usa o prefixo e opta por copiar para um destino baseado em arquivo, preservando a hierarquia, observe que o sub-caminho após o último "/" no prefixo será preservado. Por exemplo, você tem origem
bucket/folder/subfolder/file.txte configura o prefixo comofolder/sub, em seguida, o caminho do arquivo preservado ésubfolder/file.txt.
Caminho do arquivo curinga: se você escolher esse tipo, especifique os caminhosbucket e curinga.
Bucket: especifique o nome do bucket do Armazenamento Compatível com S3. É necessário.
Caminhos com caracteres curinga: especifique a pasta ou o caminho do arquivo com caracteres genéricos dentro do bucket especificado para filtrar suas pastas ou arquivos de origem.
Caracteres curinga permitidos são:
*(representa zero ou mais caracteres) e?(representa zero ou um caractere). Use^para escapar se o nome da pasta tiver curinga ou esse caractere de escape dentro. Veja mais exemplos em Exemplos de filtro de pastas e arquivos.
Caminho da pasta curinga: o caminho da pasta com caracteres curinga no bucket fornecido para filtrar pastas de origem.Nome do arquivo curinga: o nome do arquivo com caracteres curinga no caminho de bucket e pasta fornecidos (ou caminho de pasta curinga) para filtrar os arquivos de origem.
Lista de arquivos: se você escolher esse tipo, especifique o caminho da pasta e o caminho para a lista de arquivos para indicar a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho configurado. Para obter mais exemplos, vá para exemplos de lista de arquivos.
- Caminho da pasta: especifique o caminho para a pasta em determinado bucket. É necessário.
- Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Formato do arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte artigos no formato com suporte para obter informações detalhadas.
Recursivamente: especifique se os dados são lidos recursivamente das subpastas ou apenas da pasta especificada. Quando Recursivamente é selecionado e o destino é um repositório baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade é selecionada por padrão e não se aplica quando você configura o Caminho para a lista de arquivos.
Em Avançado, você pode especificar os seguintes campos:
Filtro pela última modificação: os arquivos são filtrados com base nas últimas datas modificadas que você especificou. Essa propriedade não se aplica quando você configura seu tipo de caminho de arquivo como Lista de arquivos.
- Hora de início (UTC): os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.
- Hora de término (UTC): os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.
Quando a hora de início (UTC) tem o valor de datetime , mas a hora de término (UTC) é NULL, significa que os arquivos cujo último atributo modificado é maior ou igual ao valor de datetime serão selecionados. Quando a hora de término (UTC) tem o valor de datetime , mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo último atributo modificado é menor que o valor de datetime serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.
Habilitar a descoberta de partição: especifique se as partições devem ser analisadas do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele não é selecionado por padrão e não tem suporte quando você usa o formato de arquivo binário.
Caminho raiz da partição: quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
Se não for especificado, por padrão,
- Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho raiz da partição é o caminho que você configurou.
- Quando você usa o filtro de pasta coringa, o caminho raiz da partição é o subcaminho antes do primeiro coringa.
- Quando você usa o prefixo, o caminho raiz da partição é o sub-caminho que aparece antes da última "/".
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27:- Se você especificar o caminho raiz da partição como
root/folder/year=2020, a atividade de cópia gerará mais duas colunas mês e dia com o valor "08" e "27", respectivamente, além das colunas dentro dos arquivos. - Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.
Conexão simultânea máxima: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último.
Destino
As propriedades a seguir são suportadas para Amazon S3 Compatible na aba Destino de uma atividade de cópia.
As seguintes propriedades são necessárias:
- Conexão: selecione uma conexão compatível com o Amazon S3 na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão compatível com o Amazon S3 selecionando Nova.
- Tipo de conexão: selecione Amazon S3 Compatível com seu tipo de conexão.
- Caminho do arquivo: os dados podem ser copiados para o bucket fornecido ou o bucket e o caminho de pasta especificados.
- Formato do arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte artigos no formato com suporte para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: define o comportamento de cópia quando a origem é arquivos de um armazenamento de dados baseado em arquivo. Escolha um comportamento na lista suspensa.
- Hierarquia de nivelamento: todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
- Mesclar arquivos: mescla todos os arquivos da pasta de origem para um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
- Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
Conexões simultâneas máximas: essa propriedade indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.
Mapeamento
Para a configuração da guia Mapeamento, vá para Configurar seus mapeamentos na guia mapeamento. Se você escolher Binário como seu formato de arquivo, não haverá suporte para mapeamento.
Configurações
Para a configuração da guia Configurações , vá para Definir suas outras configurações na guia Configurações.
Sumário da tabela
As tabelas a seguir contêm mais informações sobre a atividade de cópia no Amazon S3 Compatible.
Informações de origem
| Nome | Description | Value | Obrigatório | Propriedade do script JSON |
|---|---|---|---|---|
| Conexão | Sua conexão com o repositório de dados de origem. | <sua conexão compatível com o Amazon S3> | Yes | conexão |
| Tipo de conexão | Selecione um tipo para sua conexão. | Compatível com o Amazon S3 | Yes | / |
| Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Prefixo • Caminho do arquivo curinga • Lista de arquivos |
Yes | / |
| Para caminho do arquivo | ||||
| Bucket | O nome do bucket de Armazenamento Compatível com S3. | <seu nome de bucket> | Yes | bucketName |
| Diretório | O caminho para a pasta no bucket especificado. | <nome da pasta> | Não | caminho da pasta |
| Nome do arquivo | O nome do arquivo no bucket e no caminho da pasta especificados. | <seu nome de arquivo> | Não | fileName |
| Para Prefixo | ||||
| Bucket | O nome do bucket de Armazenamento Compatível com S3. | <seu nome de bucket> | Yes | bucketName |
| prefixo | O prefixo para o nome da chave de Armazenamento Compatível com S3 no bucket fornecido para filtrar arquivos de Armazenamento Compatível com S3 de origem. | <seu prefixo> | Não | prefix |
| Para o caminho do arquivo curinga | ||||
| Bucket | O nome do bucket de Armazenamento Compatível com S3. | <seu nome de bucket> | Yes | bucketName |
| Caminho da pasta coringa | O caminho da pasta com caracteres curinga no bucket especificado para filtrar pastas de origem. | <seu caminho da pasta com caracteres curinga> | Não | wildcardFolderPath |
| Nome de arquivo curinga | O nome do arquivo com caracteres curinga no bucket especificado e no caminho da pasta (ou caminho da pasta curinga) para filtrar arquivos de origem. | <seu nome de arquivo com caracteres curinga> | Yes | wildcardFileName |
| Para lista de arquivos | ||||
| Bucket | O nome do bucket de Armazenamento Compatível com S3. | <seu nome de bucket> | Yes | bucketName |
| Diretório | O caminho para a pasta no bucket especificado. | <nome da pasta> | Não | caminho da pasta |
| Caminho para a lista de arquivos | Indica a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclui uma lista de arquivos que você deseja copiar, um arquivo por linha. | < caminho da lista de arquivos > | Não | fileListPath |
| Formato de arquivo | O formato de arquivo para seus dados de origem. Para obter informações de diferentes formatos de arquivo, consulte artigos no formato com suporte para obter informações detalhadas. | / | Yes | / |
| Recursivamente | Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Observe que quando Recursivamente é selecionado e o destino é um repositório baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade não se aplica quando você configura o Caminho para a lista de arquivos. | selecionado (padrão) ou desmarcado | Não | recursive |
| Filtrar pela última modificação | Os arquivos com hora da última modificação no intervalo [hora de início, hora de término) serão filtrados para processamento adicional. O horário será aplicado ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ. Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica quando você configura seu tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
| Habilitar a descoberta de partição | Indica se as partições devem ser analisadas do caminho do arquivo e adicioná-las como colunas de origem adicionais. | selecionado ou não selecionado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
| Caminho raiz da partição | Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler as pastas particionadas como colunas de dados. | < seu caminho raiz de partição > | Não | partitionRootPath |
| Conexão simultânea máxima | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
| Colunas adicionais | Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. | •Nome • Valor |
Não | colunas adicionais: • nome •valor |
Informações de destino
| Nome | Description | Value | Obrigatório | Propriedade do script JSON |
|---|---|---|---|---|
| Conexão | Sua ligação com o banco de dados de destino. | <sua conexão compatível com o Amazon S3> | Yes | conexão |
| Tipo de conexão | Selecione um tipo para sua conexão. | Compatível com o Amazon S3 | Yes | / |
| Caminho do arquivo | O caminho de pasta/arquivo para o arquivo de destino. | <caminho de pasta/arquivo> | Yes | / |
| Bucket | O nome do bucket de Armazenamento Compatível com S3. | <seu nome de bucket> | Yes | bucketName |
| Diretório | O caminho para a pasta no bucket especificado. | <nome da pasta> | Não | caminho da pasta |
| Nome do arquivo | O nome do arquivo no bucket e no caminho da pasta especificados. | <seu nome de arquivo> | Não | fileName |
| Comportamento de cópia | Define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. | • Achatamento de hierarquia • Mesclar arquivos • Preservar hierarquia |
Não | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
| Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |