Compartilhar via


Tutorial: Copiar dados para a Data Box Disk do Azure e verificar

Importante

Azure Data Box agora dá suporte à atribuição de camada de acesso no nível do blob. As etapas contidas neste tutorial refletem o processo atualizado de cópia de dados e são específicas para blobs de bloco.

Não há suporte para atribuição de camada de acesso ao copiar dados usando a Ferramenta de Cópia Dividida do Data Box. Se o caso de uso exigir atribuição de camada de acesso, siga as etapas contidas na seção Copiar dados para discos para copiar seus dados para a camada de acesso apropriada usando o utilitário Robocopy.

Para obter ajuda na determinação da camada de acesso apropriada para seus dados de blobs de bloco, consulte a seção Determinar as camadas de acesso apropriadas para blobs de bloco.

As informações contidas nesta seção aplicam-se a pedidos feitos após 1º de abril de 2024.

Cuidado

Este artigo faz referência ao CentOS, uma distribuição Linux que está no status de fim de suporte. Considere seu uso e planeje de acordo.

Este tutorial descreve como copiar dados do computador host e gerar somas de verificação para verificar a integridade dos dados.

Neste tutorial, você aprenderá a:

  • Determinar as camadas de acesso apropriadas para blobs em blocos
  • Copiar dados para Data Box Disk
  • Verificar os dados

Pré-requisitos

Antes de começar, verifique se:

Determinar as camadas de acesso apropriadas para blob de blocos

Importante

As informações contidas nesta seção se aplicam a pedidos feitos após 01º de abril de 2024.

Armazenamento do Azure permite armazenar dados de block blob em diferentes camadas de acesso na mesma conta de armazenamento. Essa capacidade permite que os dados sejam organizados e armazenados de forma mais eficiente com base na frequência com que são acessados. A tabela a seguir contém informações e recomendações sobre Armazenamento do Azure camadas de acesso.

Camada Recomendação Melhor prática
Popular Útil para dados online acessados ou modificados com frequência. Essa camada tem os custos de armazenamento mais elevados, mas os custos de acesso mais baixos. Os dados nessa camada devem estar em uso regular e ativo.
Esporádico Útil para dados online acessados ou modificados com pouca frequência. Essa camada tem custos de armazenamento mais baixos e custos de acesso mais altos do que a camada de acesso frequente. Os dados nessa camada devem ser armazenados por pelo menos 30 dias.
Frio Útil para dados online acessados ou modificados raramente, mas que ainda exigem recuperação rápida. Essa camada tem custos de armazenamento mais baixos e custos de acesso mais altos do que a camada fria. Os dados nessa camada devem ser armazenados por um mínimo de 90 dias.
Arquivar Útil para dados offline raramente acessados e com requisitos de latência mais baixos. Os dados nessa camada devem ser armazenados por um período mínimo de 180 dias. Os dados removidos da camada de armazenamento de arquivos dentro de 180 dias estão sujeitos a uma taxa de exclusão antecipada.

Para obter mais informações sobre camadas de acesso de blob, consulte Camadas de acesso para dados de blob. Para obter práticas recomendadas mais detalhadas, consulte Práticas recomendadas para usar as camadas de acesso de blobs.

Você pode transferir seus dados de blob de blocos para a camada de acesso apropriada copiando-os para a pasta correspondente no Data Box Disk. Esse processo é discutido em mais detalhes na seção Copiar dados para discos.

Copiar dados para os discos

Antes de copiar dados para os discos, analise as considerações a seguir:

  • É de sua responsabilidade copiar os dados locais para o compartilhamento que corresponde ao formato de dados apropriado. Por exemplo, copie os dados de blob de blocos para o compartilhamento BlockBlob. Copie VHDs para o compartilhamento PageBlob. Se o formato de dados local não corresponder à pasta apropriada para o tipo de armazenamento escolhido, o carregamento de dados para Azure falhará em uma etapa posterior.

  • Não é possível copiar dados diretamente para a pasta raiz de um compartilhamento. Em vez disso, crie uma pasta dentro do compartilhamento apropriado e copie seus dados para ela.

    • As pastas localizadas na PageBlob do compartilhamento raiz correspondem a contêineres da sua conta de armazenamento. Será criado um novo contêiner para qualquer pasta cujo nome não corresponda a um contêiner existente na sua conta de armazenamento.

    • As pastas localizadas no AzFile share root correspondem a Azure compartilhamentos de arquivos. Será criado um novo compartilhamento de arquivo para qualquer pasta cujo nome não corresponda a um compartilhamento de arquivo existente em sua conta de armazenamento.

    • O nível raiz do compartilhamento BlockBlob contém uma pasta correspondente a cada camada de acesso. Ao copiar dados para o compartilhamento BlockBlob, crie uma subpasta dentro da pasta de nível superior correspondente à camada de acesso desejado. Assim como no compartilhamento PageBlob, um novo contêiner será criado para qualquer pasta cujo nome não corresponda a um contêiner existente. Os dados do contêiner serão copiados para a camada correspondente ao pai de nível superior da subpasta.

      Um contêiner também é criado para qualquer pasta residente na raiz do compartilhamento BlockBlob e os dados que ele contém são copiados para a camada de acesso padrão do contêiner. Para garantir que seus dados sejam copiados para a camada de acesso desejada, não crie pastas no nível raiz.

    Importante

    Os dados carregados para a camada de armazenamento de arquivos permanecem offline e precisam ser reidratados antes de serem lidos ou modificados. Os dados copiados para a camada de armazenamento de arquivos devem permanecer por pelo menos 180 dias ou estarão sujeitos a uma taxa de exclusão antecipada. A camada de arquivamento não tem suporte para contas ZRS, GZRS ou RA-GZRS.

  • Ao copiar dados, verifique se o tamanho dos dados está em conformidade com os limites de tamanho descritos no artigo Azure Storage e limites de Data Box Disk.

  • Não desabilite a criptografia do BitLocker no Data Box Disks. Desabilitar a criptografia do BitLocker resulta em falha de upload após o retorno dos discos. Desabilitar o BitLocker também deixa os discos em um estado desbloqueado, criando problemas de segurança.

  • Para preservar metadados, como ACLs, carimbos de data/hora e atributos de arquivo ao transferir dados para Arquivos do Azure, siga as diretrizes no artigo Preservando permissões de ACL, atributos de arquivo e carimbos de data/hora com o Azure Data Box Disk.

  • Se você usar Data Box Disk e outros aplicativos para carregar dados simultaneamente, poderá enfrentar falhas de carregamento e corrupção de dados.

    Importante

    Se você especificou os discos gerenciados como um dos destinos de armazenamento durante a criação do pedido, a seção a seguir é aplicável.

  • Certifique-se de que os discos rígidos virtuais (VHDs) carregados para as pastas pré-criadas tenham nomes exclusivos dentro dos grupos de recursos. Os discos gerenciados devem ter nomes exclusivos em um grupo de recursos em todas as pastas pré-criadas no Data Box Disk. Se estiver usando vários Data Box Disks, os nomes dos discos gerenciados deverão ser exclusivos entre todas as pastas e discos. Quando são encontrados VHDs com nomes duplicados, apenas um é convertido em um disco gerenciado com esse nome. Os VHDs restantes são carregados como blobs de página na conta de armazenamento de preparação.

  • Sempre copie os VHDs para uma das pastas pré-criadas. Os VHDs colocados fora dessas pastas ou em uma pasta criada por você são carregados para contas de Armazenamento do Microsoft Azure como blobs de página em vez de discos gerenciados.

  • Somente VHDs fixos podem ser carregados para criar discos gerenciados. Não há suporte para VHDs dinâmicos, VHDs diferenciais e arquivos VHDX.

  • As ferramentas de divisão de cópia e validação do Azure Data Box Disk, DataBoxDiskSplitCopy.exe e DataBoxDiskValidation.cmd, relatam falhas ao processar caminhos longos. Essas falhas são comuns quando os caminhos longos não estão habilitados no cliente e os caminhos e nomes de arquivos da sua cópia de dados excedem 256 caracteres. Para evitar essas falhas, siga as diretrizes no artigo ativar caminhos longos em seu cliente Windows.

Importante

O ISE do PowerShell não é compatível com as ferramentas do Data Box Disk

Execute as etapas a seguir para conectar e copiar dados do computador para o Data Box Disk.

  1. Exiba o conteúdo da unidade desbloqueada. A lista de pastas e subpastas pré-criadas na unidade varia de acordo com as opções selecionadas ao fazer o pedido do Data Box Disk. A criação de pastas extras não é permitida, pois a cópia de dados para uma pasta criada pelo usuário causa falhas no upload.

    Destino de armazenamento selecionado Tipo de conta de armazenamento Tipo de conta de armazenamento intermediário Pastas e subpastas
    Conta de armazenamento GPv1 ou GPv2 NA BlockBlob
    • Arquivos
    • Frio
    • Esporádico
    • Dinâmica
    PageBlob
    AzureFile
    Conta de armazenamento Conta de armazenamento de blobs N/D BlockBlob
    • Arquivos
    • Frio
    • Esporádico
    • Dinâmica
    Discos gerenciados NA GPv1 ou GPv2 ManagedDisk
    • PremiumSSD
    • StandardSSD
    • StandardHDD
    Conta de armazenamento
    Discos gerenciados
    GPv1 ou GPv2 GPv1 ou GPv2 BlockBlob
    • Arquivos
    • Frio
    • Esporádico
    • Dinâmica
    PageBlob
    AzureFile
    ManagedDisk
    • PremiumSSD
    • StandardSSD
    • StandardHDD
    Conta de armazenamento
    Discos gerenciados
    Conta de armazenamento de blobs GPv1 ou GPv2 BlockBlob
    • Arquivos
    • Frio
    • Esporádico
    • Dinâmica
    ManagedDisk
    • PremiumSSD
    • StandardSSD
    • StandardHDD

    A captura de tela a seguir mostra um pedido em que uma conta de armazenamento GPv2 e uma camada de armazenamento de arquivos foram especificadas:

    Captura de tela do conteúdo da unidade de disco.

  2. Copiar dados VHD ou VHDX para a pasta PageBlob. Todos os arquivos copiados para a pasta PageBlob são copiados para um contêiner $root padrão dentro da conta Armazenamento do Azure. Um contêiner é criado na conta de armazenamento Azure para cada subpasta dentro da pasta PageBlob.

    Copie os dados que devem ser colocados em compartilhamentos de arquivos do Azure para uma subpasta dentro da pasta AzureFile. Todos os arquivos copiados para a pasta AzureFile são copiados como arquivos para um contêiner padrão do tipo databox-format-[GUID], por exemplo, databox-azurefile-7ee19cfb3304122d940461783e97bf7b4290a1d7.

    Não é possível copiar arquivos diretamente para a pasta raiz do BlockBlob. Na pasta raiz, você encontrará uma subpasta correspondente a cada uma das camadas de acesso disponíveis. Para copiar os dados de blob, você deve primeiro selecionar a pasta correspondente a uma das camadas de acesso. Em seguida, crie uma subpasta dentro da pasta dessa camada para armazenar seus dados. Por fim, copie seus dados para a subpasta recém-criada. Sua nova subpasta representa o contêiner criado na conta de armazenamento durante a ingestão. Seus dados são carregados nesse contêiner como blobs. Da mesma forma que o compartilhamento AzureFile, um novo contêiner de armazenamento de blobs será criado para cada subpasta localizada na pasta raiz do BlockBlob. Os dados contidos nessas pastas são salvos de acordo com o camada de acesso padrão da conta de armazenamento.

    Antes de começar a copiar os dados, é necessário mover todos os arquivos e pastas existentes no diretório raiz para uma pasta diferente.

    Importante

    Todos os contêineres, blobs e nomes de arquivo devem estar em conformidade com as convenções de nomenclatura Azure. Se essas regras não forem seguidas, o upload de dados para Azure falhará.

  3. Ao copiar arquivos, verifique se os arquivos não excedem 7 TiB para blobs de blocos, 7 TiB para blobs de página e 4 TiB para Arquivos do Azure.

  4. Você pode usar a funcionalidade de arrastar e soltar do Explorador de Arquivos para copiar os dados. Você também pode usar qualquer ferramenta de cópia de arquivo compatível com SMB, como Robocopy, para copiar seus dados.

    Uma vantagem de usar uma ferramenta de cópia de arquivos é a capacidade de iniciar vários trabalhos de cópia, como no exemplo a seguir, usando a ferramenta Robocopy:

    Robocopy <source> <destination> * /MT:64 /E /R:1 /W:1 /NFL /NDL /FFT /Log:c:\RobocopyLog.txt

    Observação

    Os parâmetros usados neste exemplo são baseados no ambiente usado durante os testes internos. Seus parâmetros e valores provavelmente serão diferentes.

    Os parâmetros e as opções do comando são usados da seguinte forma:

    Parâmetros/Opções Descrição
    Fonte Especifica o caminho para o diretório de origem.
    Destino Especifica o caminho para o diretório de destino.
    /E Copia subdiretórios, inclusive diretórios vazios.
    /MT[:n] Cria cópias com vários threads com n threads, em que n é um número inteiro entre 1 e 128.
    O valor padrão para n é 8.
    /R: <n> Especifica o número de tentativas em caso de falha ao copiar.
    O valor padrão de n é 1.000.000 de tentativas.
    /W: <n> Especifica o tempo de espera entre as tentativas, em segundos.
    O valor padrão de n é 30 e equivale a um tempo de espera de 30 segundos.
    / NFL Especifica que os nomes de arquivo não são registrados.
    /NDL Especifica que os nomes de diretório não devem ser registrados.
    /FFT Pressupõe tempos de arquivo FAT com uma precisão de resolução de dois segundos.
    /Log:<arquivo de log> Grava a saída de status no arquivo de log.
    Qualquer arquivo de log existente será sobrescrito.

    Vários discos podem ser usados em paralelo com vários trabalhos em execução em cada disco. Lembre-se de que os nomes de arquivos duplicados são sobrescritos ou resultam em um erro de cópia.

  5. Verifique o status da cópia quando o trabalho está em andamento. O exemplo a seguir mostra a saída do comando robocopy para copiar arquivos para o Data Box Disk.

    
    C:\Users>robocopy
    -------------------------------------------------------------------------------
       ROBOCOPY     ::     Robust File Copy for Windows
    -------------------------------------------------------------------------------
    
       Started : Thursday, March 8, 2018 2:34:53 PM
          Simple Usage :: ROBOCOPY source destination /MIR
    
                source :: Source Directory (drive:\path or \\server\share\path).
           destination :: Destination Dir  (drive:\path or \\server\share\path).
                  /MIR :: Mirror a complete directory tree.
    
      For more usage information run ROBOCOPY /?    
    
      ****  /MIR can DELETE files as well as copy them !
    
    C:\Users>Robocopy C:\Repository\guides \\10.126.76.172\AzFileUL\templates /MT:64 /E /R:1 /W:1 /FFT 
    -------------------------------------------------------------------------------
       ROBOCOPY     ::     Robust File Copy for Windows
    -------------------------------------------------------------------------------
    
       Started : Thursday, March 8, 2018 2:34:58 PM
        Source : C:\Repository\guides\
          Dest : \\10.126.76.172\devicemanagertest1_AzFile\templates\
    
         Files : *.*
    
       Options : *.* /DCOPY:DA /COPY:DAT /MT:8 /R:1000000 /W:30
    
     ------------------------------------------------------------------------------
    
     100%    New File    206    C:\Repository\guides\article-metadata.md
     100%    New File    209    C:\Repository\guides\content-channel-guidance.md
     100%    New File    732    C:\Repository\guides\index.md
     100%    New File    199    C:\Repository\guides\pr-criteria.md
     100%    New File    178    C:\Repository\guides\pull-request-co.md
     100%    New File    250    C:\Repository\guides\pull-request-ete.md
     100%    New File    174    C:\Repository\guides\create-images-markdown.md
     100%    New File    197    C:\Repository\guides\create-links-markdown.md
     100%    New File    184    C:\Repository\guides\create-tables-markdown.md
     100%    New File    208    C:\Repository\guides\custom-markdown-extensions.md
     100%    New File    210    C:\Repository\guides\file-names-and-locations.md
     100%    New File    234    C:\Repository\guides\git-commands-for-master.md
     100%    New File    186    C:\Repository\guides\release-branches.md
     100%    New File    240    C:\Repository\guides\retire-or-rename-an-article.md
     100%    New File    215    C:\Repository\guides\style-and-voice.md
     100%    New File    212    C:\Repository\guides\syntax-highlighting-markdown.md
     100%    New File    207    C:\Repository\guides\tools-and-setup.md
     ------------------------------------------------------------------------------
    
                    Total    Copied   Skipped  Mismatch    FAILED    Extras
         Dirs :         1         1         1         0         0         0
        Files :        17        17         0         0         0         0
        Bytes :     3.9 k     3.9 k         0         0         0         0
        Times :   0:00:05   0:00:00                       0:00:00   0:00:00
    
        Speed :                5620 Bytes/sec.
        Speed :               0.321 MegaBytes/min.
        Ended : Thursday, August 31, 2023 2:34:59 PM
    
    

    Para otimizar o desempenho, use os seguintes parâmetros de robocopy ao copiar os dados.

    Plataforma Principalmente arquivos pequenos < 512 KB Principalmente arquivos médios 512 KB a 1 MB Principalmente arquivos grandes > 1 MB
    Data Box Disk 4 sessões do Robocopy*
    16 threads por sessão
    2 sessões de Robocopy*
    16 threads por sessão
    2 sessões de Robocopy*
    16 threads por sessão

    * Cada sessão do Robocopy pode ter no máximo 7 mil diretórios e 150 milhões de arquivos.

    Para obter mais informações sobre o comando Robocopy, leia o artigo Robocopy e alguns exemplos.

  6. Abra a pasta de destino e, em seguida, exiba e verifique os arquivos copiados. Se você receber erros durante o processo de cópia, baixe os arquivos de log para solucionar problemas. A saída do comando robocopy especifica o local dos arquivos de log.

Dividir e copiar dados para os discos

A ferramenta Data Box Split Copy ajuda a dividir e copiar dados em dois ou mais discos de Azure Data Box. A ferramenta só está disponível para uso em um computador Windows. Esse procedimento opcional é útil quando você tem um grande conjunto de dados que precisa ser dividido e copiado em vários discos.

Importante

A ferramenta Data Box Split Copy também pode validar seus dados. Se você usar a ferramenta Data Box Split Copy para copiar dados, ignore a etapa de validação.

Não há suporte para atribuição de camada de acesso ao copiar dados usando a Ferramenta de Cópia Dividida do Data Box. Se o caso de uso exigir atribuição de camada de acesso, siga as etapas contidas na seção Copiar dados para discos para copiar seus dados para a camada de acesso apropriada usando o utilitário Robocopy.

Não há suporte para a ferramenta Split Copy do Data Box com discos gerenciados.

  1. Em seu computador Windows, verifique se você tem a ferramenta Data Box Split Copy baixada e extraída em uma pasta local. Essa ferramenta está incluída no conjunto de ferramentas Data Box Disk para Windows.

  2. Abra o Explorador de Arquivos. Anote a unidade da fonte de dados e as letras das unidades atribuídas ao Data Box Disk.

    Captura de tela do disco de origem dos dados e das letras de unidade atribuídas ao Data Box Disk.

  3. Identifique os dados de origem para copiar. Por exemplo, nesse caso:

    • Os seguintes dados de blob de blocos foram identificados.

      Captura de tela dos dados de blob de blocos identificados para o processo de cópia.

    • Os dados do blob de páginas a seguir foram identificados.

      Captura de tela dos dados do blob de páginas identificados para o processo de cópia.

  4. Navegue até a pasta em que o software foi extraído e localize o arquivo SampleConfig.json. Esse arquivo é um arquivo somente de leitura que pode ser modificado e salvo.

    Captura de tela mostrando o local do arquivo de configuração de amostra.

  5. Modifique o arquivo SampleConfig.json.

    • Forneça um nome de trabalho. Uma pasta com esse nome é criada no Data Box Disk. O nome também é usado para criar um contêiner na conta de armazenamento Azure associada a esses discos. O nome do trabalho deve seguir as convenções de nomenclatura de contêiner Azure.

    • Forneça um caminho de origem, observando o formato do caminho no SampleConfigFile.json.

    • Insira as letras das unidades de disco correspondentes aos discos de destino. Os dados são extraídos do caminho de origem e copiados em vários discos.

    • Forneça um caminho para os arquivos de log. Por padrão, os arquivos de registro são enviados para o diretório em que o arquivo .exe está localizado.

    • Para validar o formato de arquivo, acesse JSONlint.

      Captura de tela mostrando o conteúdo do arquivo de configuração de amostra.

    • Salve o arquivo como ConfigFile.json.

      Captura de tela mostrando o local do arquivo de configuração de substituição.

  6. Abra uma janela do Prompt de Comando com privilégios elevados e execute o DataBoxDiskSplitCopy.exe usando o seguinte comando.

    DataBoxDiskSplitCopy.exe PrepImport /config:ConfigFile.json
    
  7. Quando solicitado, pressione qualquer tecla para continuar a execução da ferramenta.

    Captura de tela mostrando a janela do prompt de comando executando a ferramenta Split Copy.

  8. Depois que o conjunto de dados é dividido e copiado, o resumo da ferramenta Split Copy para a sessão de cópia é apresentado como mostrado no exemplo de saída a seguir.

    Captura de tela mostrando o resumo apresentado após a execução bem-sucedida da ferramenta Split Copy.

  9. Verifique se os dados estão divididos corretamente nos discos de destino.

    Captura de tela indicando que os dados resultantes foram divididos corretamente no primeiro dos dois discos de destino.

    Captura de tela indicando que os dados resultantes foram divididos corretamente no segundo dos dois discos de destino.

    Examine o conteúdo da unidade H: e verifique se foram criadas duas subpastas que correspondem aos dados de formato de blob de blocos e blob de página.

    Captura de tela mostrando duas subpastas criadas, correspondentes aos formatos block blob e page blob.

  10. Se a sessão de cópia falhar, use o seguinte comando para recuperar e retomar:

    DataBoxDiskSplitCopy.exe PrepImport /config:ConfigFile.json /ResumeSession

Se você encontrar erros durante o uso da ferramenta Split Copy, siga as etapas do artigo Solução de problemas de erros da ferramenta Split Copy.

Importante

A ferramenta Data Box Split Copy também valida seus dados. Se você usar a ferramenta Data Box Split Copy para copiar dados, ignore a etapa de validação. Não há suporte para a ferramenta Split Copy com discos gerenciados.

Valide os dados

Se você não usou a ferramenta Data Box Split Copy para copiar dados, será necessário validar os dados. Verifique os dados executando as etapas a seguir em cada um dos Data Box Disks. Se você encontrar erros durante a validação, siga as etapas do artigo solução de problemas de erros de validação.

  1. Execute DataBoxDiskValidation.cmd para a validação do checksum na pasta DataBoxDiskImport do seu drive. Essa ferramenta só está disponível para o ambiente Windows. Os usuários do Linux precisam validar que os dados de origem copiados para o disco atendem Azure Data Box pré-requisitos.

    Screenshot mostrando o resultado da ferramenta de validação do Data Box Disk.

  2. Escolha a opção de validação apropriada quando solicitado. É recomendado que você sempre valide os arquivos e gere somas de verificação selecionando a opção 2. Saia da janela de comando após a conclusão do script. O tempo necessário para a conclusão da validação depende do tamanho de seus dados. A ferramenta o notifica sobre quaisquer erros encontrados durante a validação e a geração da soma de verificação e fornece um link para os logs de erros.

    Captura de tela mostrando uma tentativa de execução com falha e indicando o local do arquivo de log correspondente.

    Dica

    • Redefina a ferramenta entre duas execuções.
    • O processo de soma de verificação pode levar mais tempo se você tiver um grande conjunto de dados contendo muitos arquivos que ocupam relativamente pouca capacidade de armazenamento. Se você validar arquivos e ignorar a criação da soma de verificação, deverá verificar independentemente a integridade dos dados no Azure Data Box Disk antes de excluir quaisquer cópias. O ideal é que essa verificação inclua a geração de somas de verificação.

Próximas etapas

Neste tutorial, você aprendeu a concluir as seguintes tarefas com o Azure Data Box Disk:

  • Copiar dados para Data Box Disk
  • Verificar a integridade dos dados

Avance para o próximo tutorial para saber como retornar o Data Box Disk e verificar o carregamento de dados para Azure.