Compartilhar via


Copiar dados com segurança do Armazenamento de Blobs do Azure para um Banco de Dados SQL usando pontos de extremidade privados

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Neste tutorial, você criará uma fábrica de dados usando a interface do usuário do Azure Data Factory. O pipeline deste data factory copia os dados com segurança do Armazenamento de Blobs do Azure para um Banco de Dados SQL do Azure (permitindo o acesso somente às redes selecionadas) usando pontos de extremidade privados na Rede Virtual Gerenciada do Azure Data Factory. O padrão de configuração neste tutorial aplica-se à cópia de um armazenamento de dados baseado em arquivos para um armazenamento de dados relacional. Para obter uma lista de armazenamentos de dados compatíveis como origens e coletores, confira a tabela de Formatos e armazenamentos de dados compatíveis. O recurso de pontos de extremidade privados está disponível em todas as camadas de Azure Data Factory, portanto, nenhuma camada específica é necessária para utilizá-las. Para obter mais detalhes sobre preços e camadas, consulte a página de preços Azure Data Factory.

Observação

Se você é novo no Data Factory, consulte Introdução ao Azure Data Factory.

Neste tutorial, você executa as seguintes etapas:

  • Criar uma fábrica de dados.
  • Criar um pipeline com uma atividade de cópia.

Pré-requisitos

  • Assinatura do Azure. Se você não tiver uma assinatura Azure, crie uma conta de Azure free antes de começar.
  • Azure conta de armazenamento. Você usa o armazenamento de blobs como um armazenamento de dados de origem. Se você não tiver uma conta de armazenamento, consulte Criar uma conta de armazenamento Azure para ver as etapas para criar uma. Verifique se a conta de armazenamento permite acesso somente de redes selecionadas.
  • Banco de Dados SQL do Azure. Você usa o banco de dados como um armazenamento de dados de coletor. Se você não tiver um banco de dados SQL do Azure, consulte Criar um banco de dados SQL para ver as etapas para criar um. Verifique se a conta do Banco de Dados SQL permite acesso somente de redes selecionadas.

Criar um blob e uma tabela SQL

Agora, prepare o Armazenamento de Blobs e o Banco de Dados SQL para o tutorial executando as etapas a seguir.

Criar um blob de origem

  1. Abra o Bloco de Notas. Copie o texto a seguir e salve-o como um arquivo emp.txt no disco:

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Crie um contêiner chamado adftutorial no seu Armazenamento de Blobs. Crie uma pasta chamada input nesse contêiner. Em seguida, carregue o arquivo emp.txt na pasta input. Use o portal Azure ou ferramentas como Gerenciador de Armazenamento do Azure para realizar essas tarefas.

Criar uma tabela de destino SQL

Use o script SQL a seguir para criar a tabela dbo.emp em seu banco de dados SQL:

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO

CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Criar uma fábrica de dados (data factory)

Nesta etapa, você cria um Data Factory e inicia a interface do usuário do Data Factory para criar um pipeline no Data Factory.

  1. Abra Microsoft Edge ou Google Chrome. Atualmente, apenas navegadores da Web Microsoft Edge e do Google Chrome dão suporte à interface do usuário do Data Factory.

  2. No menu à esquerda, selecione Criar um recurso>Analytics>Data Factory.

  3. Na página Novo Fábrica de Dados, em Nome, insira ADFTutorialDataFactory.

    O nome do Data Factory do Azure deve ser globalmente exclusivo. Se você receber uma mensagem de erro sobre o valor do nome, insira um nome diferente para o data factory (por exemplo, yournameADFTutorialDataFactory). Para ver as regras de nomenclatura para artefatos do Data Factory, confira Data Factory – Regras de nomenclatura.

  4. Selecione a assinatura do Azure na qual você deseja criar a fábrica de dados.

  5. Em Grupo de Recursos, use uma das seguintes etapas:

    • Selecione Usar existente e selecione um grupo de recursos existente na lista suspensa.
    • Selecione Criar novoe insira o nome de um grupo de recursos.

    Para saber mais sobre grupos de recursos, consulte Use grupos de recursos para gerenciar seus recursos Azure.

  6. Em Versão, selecione V2.

  7. Em Local, selecione uma localização para o data factory. Apenas os locais com suporte aparecem na lista suspensa. Os armazenamentos de dados (por exemplo, Armazenamento do Azure e Banco de Dados SQL) e os serviços de computação (por exemplo, Azure HDInsight) usados pelo data factory podem estar em outras regiões.

  8. Selecione Criar.

  9. Depois que a criação for concluída, você verá o aviso no Centro de notificações. Selecione Ir para o recurso para ir até a página do Data Factory.

  10. Selecione Open no bloco Open Azure Data Factory Studio para iniciar a interface do usuário do Data Factory em uma guia separada.

Criar um runtime de integração Azure no Data Factory Managed Rede Virtual

Nesta etapa, você criará um runtime de integração Azure e habilitará o Data Factory Managed Rede Virtual.

  1. No portal do Data Factory, acesse Manage e selecione New para criar um novo runtime de integração Azure.

    Screenshot que mostra a criação de um novo Azure integration runtime.

  2. Na página Instalação do runtime de integração, escolha o runtime de integração a ser criado com base nas funcionalidades necessárias. Neste tutorial, selecione Azure, Auto-Hospedado e clique em Continue.

  3. Selecione Azure e clique em Continue para criar um runtime do Azure Integration.

    Captura de tela que mostra um novo runtime de integração do Azure.

  4. Em Configuração de rede virtual (versão prévia) , selecione Habilitar.

    Screenshot que mostra a habilitação de um novo Azure integration runtime.

  5. Selecione Criar.

Criar um pipeline

Nesta etapa, você criará um pipeline com a atividade de cópia no data factory. A atividade de cópia copia dados do Blob Storage para o Banco de Dados SQL. No Tutorial de início rápido, você criou um pipeline seguindo estas etapas:

  1. Criar o serviço vinculado.
  2. Criar conjuntos de dados de entrada e saída.
  3. Crie um pipeline.

Neste tutorial, você começa pela criação de um pipeline. Em seguida, crie conjuntos de dados e serviços vinculados quando forem necessários para configurar o pipeline.

  1. Na página inicial, selecione Orquestrar.

    Captura de tela que mostra a página inicial do data factory com o botão Orquestrar realçado.

  2. No painel de propriedades do pipeline, insira CopyPipeline como o nome do pipeline.

  3. Na caixa de ferramentas Atividades, expanda a categoria Mover e Transformar e arraste a atividade Copiar dados da caixa de ferramentas até a superfície do designer do pipeline. Insira CopyFromBlobToSql como o nome.

    Captura de tela que mostra a atividade de cópia.

Configurar uma origem

Dica

Neste tutorial, você usa Chave de conta como o tipo de autenticação para o armazenamento de dados de origem. Você também pode escolher outros métodos de autenticação compatíveis, como URI de SAS, Entidade de Serviço e Identidade Gerenciada se necessário. Para obter mais informações, consulte as seções correspondentes em Copy e transforme dados no armazenamento de Blobs Azure usando Azure Data Factory.

Para armazenar segredos para armazenamentos de dados com segurança, também recomendamos que você use Azure Key Vault. Para obter mais informações e ilustrações, consulte Armazenar credenciais no Azure Key Vault.

Criar um conjunto de dados de origem e um serviço vinculado

  1. Vá para a guia Origem. Selecione + Novo para criar um conjunto de dados de origem.

  2. Na caixa de diálogo New Dataset , selecione Armazenamento de Blobs do Azure e selecione Continue. Os dados de origem estão no Armazenamento de Blobs, portanto, você seleciona Armazenamento de Blobs do Azure para o conjunto de dados de origem.

  3. Na caixa de diálogo Selecionar Formato, selecione o tipo de formato dos seus dados e escolha Continuar.

  4. Na caixa de diálogo Definir Propriedades, insira SourceBlobDataset para o Nome. Marque a caixa de seleção para Primeira linha como cabeçalho. Na caixa de texto Serviço vinculado, selecione + Novo.

  5. Na caixa de diálogo Novo serviço vinculado (Armazenamento de Blobs do Azure), insira AzureStorageLinkedService como Name e selecione sua conta de armazenamento na lista Storage account name.

  6. Certifique-se de habilitar a Criação interativa. Pode levar cerca de um minuto para habilitar essa opção.

    Captura de tela que mostra a criação interativa.

  7. Selecione Testar conexão. Ela deverá falhar quando a conta de armazenamento permitir acesso somente de Redes selecionadas e exigir que o Data Factory crie um ponto de extremidade privado para ela, que deverá ser aprovado antes do uso. Na mensagem de erro, você verá um link para criar um ponto de extremidade privado que poderá seguir para criar um ponto de extremidade privado gerenciado. Uma alternativa é acessar diretamente a guia Gerenciar e seguir as instruções da próxima seção para criar um ponto de extremidade privado gerenciado.

    Observação

    É possível que a guia Gerenciar não fique disponível para todas as instâncias do data factory. Se você não o vir, poderá acessar os pontos de extremidade privados selecionando Autor>Conexões>Ponto de Extremidade Privado.

  8. Mantenha a caixa de diálogo aberta e acesse sua conta de armazenamento.

  9. Siga as instruções desta seção para aprovar o link privado.

  10. Volte à caixa de diálogo. Selecione novamente Testar conectividade e selecione Criar para implantar o serviço vinculado.

  11. Depois que o serviço vinculado for criado, você será levado de volta para a página Definir propriedades. Ao lado de Caminho do arquivo, selecione Procurar.

  12. Acesse a pasta adftutorial/input, selecione o arquivo emp.txt e clique em OK.

  13. Selecione OK. Isso navegará automaticamente para a página do pipeline. Na guia Origem, confirme se SourceBlobDataset está selecionado. Para visualizar os dados da página, selecione Visualizar dados.

    Captura de tela que mostra o conjunto de dados de origem.

Criar um ponto de extremidade privado gerenciado

Se você não selecionou o hiperlink ao testar a conexão, siga o caminho. Agora você precisará criar um endpoint privado gerenciado que será conectado ao serviço vinculado que você criou.

  1. Vá para a guia Gerenciar.

    Observação

    É possível que a guia Gerenciar não fique disponível para todas as instâncias do Data Factory. Se você não o vir, poderá acessar os pontos de extremidade privados selecionando Autor>Conexões>Ponto de Extremidade Privado.

  2. Acesse a seção Pontos de extremidade privados gerenciados.

  3. Selecione + Novo em Pontos de extremidade privados gerenciados.

    Captura de tela que mostra o novo botão Pontos de extremidade privados gerenciados.

  4. Selecione o bloco Armazenamento de Blobs do Azure na lista e selecione Continue.

  5. Insira o nome da conta de armazenamento criada.

  6. Selecione Criar.

  7. Depois de alguns segundos, você verá que o link privado criado precisa de uma aprovação.

  8. Selecione o ponto de extremidade privado que você criou. Você verá um hiperlink que vai levar você à aprovação do ponto de extremidade privado no nível da conta de armazenamento.

    Captura de tela que mostra o painel Endpoint Privado Gerenciado.

  1. Na conta de armazenamento, acesse Conexões do ponto de extremidade privado na seção Configurações.

  2. Marque a caixa de seleção do ponto de extremidade privado que você criou e selecione Aprovar.

    Captura de tela que mostra o botão

  3. Adicione uma descrição e selecione sim.

  4. Volte à seção Pontos de extremidade privados gerenciados da guia Gerenciar no Data Factory.

  5. Após um ou dois minutos, você verá a aprovação do endpoint privado aparecer na interface do usuário do Data Factory.

Configurar um coletor

Dica

Neste tutorial, você usará a autenticação do SQL como o tipo de autenticação para o armazenamento de dados do coletor. Você também pode escolher outros métodos de autenticação compatíveis, como Principal de Serviço e Identidade Gerenciada se necessário. Para obter mais informações, consulte as seções correspondentes em Copy e transforme dados em Banco de Dados SQL do Azure usando Azure Data Factory.

Para armazenar segredos para armazenamentos de dados com segurança, também recomendamos que você use Azure Key Vault. Para obter mais informações e ilustrações, consulte Armazenar credenciais no Azure Key Vault.

Criar um conjunto de dados de coletor e um serviço vinculado

  1. Alterne para a guia Coletor e selecione + Novo para criar um conjunto de dados do coletor.

  2. Na caixa de diálogo Novo Conjunto de Dados, digite SQL na caixa de pesquisa para filtrar os conectores. Selecione Banco de Dados SQL do Azure e selecione Continue. Neste tutorial, você copia dados para um banco de dados SQL.

  3. Na caixa de diálogo Definir Propriedades, insira OutputSqlDataset como o Nome. Na lista suspensa Serviço vinculado, selecione + Novo. Um conjunto de dados deve ser associado a um serviço vinculado. O serviço vinculado tem a cadeia de conexão que o Data Factory usa para conectar-se ao banco de dados SQL durante o tempo de execução. O conjunto de dados especifica o contêiner, pasta e arquivo (opcional) para o qual os dados são copiados.

  4. Na caixa de diálogo Novo serviço vinculado (Banco de Dados SQL do Azure), execute as seguintes etapas:

    1. Em Nome, insira AzureSqlDatabaseLinkedService.
    2. Em Server name, selecione sua instância de SQL Server.
    3. Certifique-se de habilitar a Criação interativa.
    4. Em Nome do banco de dados, selecione seu banco de dados SQL.
    5. Em Nome de usuário, insira o nome do usuário.
    6. Em Senha, insira a senha do usuário.
    7. Selecione Testar conexão. Ela deverá falhar, porque o SQL Server permite o acesso somente de Redes selecionadas e exige que o Data Factory crie um ponto de extremidade privado para ela, que deverá ser aprovado antes do uso. Na mensagem de erro, você verá um link para criar um ponto de extremidade privado que poderá seguir para criar um ponto de extremidade privado gerenciado. Uma alternativa é acessar diretamente a guia Gerenciar e seguir as instruções da próxima seção para criar um ponto de extremidade privado gerenciado.
    8. Mantenha a caixa de diálogo aberta e acesse o SQL Server selecionado.
    9. Siga as instruções desta seção para aprovar o link privado.
    10. Volte à caixa de diálogo. Selecione novamente Testar conectividade e selecione Criar para implantar o serviço vinculado.
  5. Ele vai automaticamente para a caixa de diálogo Definir propriedades. Em Tabela, selecione [dbo].[emp] . Depois, selecione OK.

  6. Acesse a guia com o pipeline e, em Conjunto de dados do Coletor, confirme se OutputSqlDataset está selecionado.

    Captura de tela que mostra a guia Pipeline.

Opcionalmente, você pode mapear o esquema da origem para o esquema de destino correspondente seguindo Mapeamento de esquema na atividade de cópia.

Criar um ponto de extremidade privado gerenciado

Se você não selecionou o hiperlink ao testar a conexão, siga o caminho. Agora você precisará criar um endpoint privado gerenciado que será conectado ao serviço vinculado que você criou.

  1. Vá para a guia Gerenciar.

  2. Acesse a seção Pontos de extremidade privados gerenciados.

  3. Selecione + Novo em Pontos de extremidade privados gerenciados.

    Captura de tela que mostra o novo botão Pontos de extremidade privados gerenciados.

  4. Selecione o bloco Banco de Dados SQL do Azure na lista e selecione Continue.

  5. Insira o nome do SQL Server que você selecionou.

  6. Selecione Criar.

  7. Depois de alguns segundos, você verá que o link privado criado precisa de uma aprovação.

  8. Selecione o ponto de extremidade privado que você criou. Você verá um hiperlink que levará você a aprovar o endpoint privado no nível do servidor SQL.

  1. No SQL Server, acesse Conexões do ponto de extremidade privado na seção Configurações.
  2. Marque a caixa de seleção do ponto de extremidade privado que você criou e selecione Aprovar.
  3. Adicione uma descrição e selecione sim.
  4. Volte à seção Pontos de extremidade privados gerenciados da guia Gerenciar no Data Factory.
  5. Deve levar um ou dois minutos para que a aprovação seja exibida para seu ponto de extremidade privado.

Depurar e publicar o pipeline

Você pode debugar um pipeline antes de publicar os artefatos (serviços vinculados, conjuntos de dados e pipeline) no Data Factory ou em seu próprio repositório Azure Repos Git.

  1. Para depurar o pipeline, selecione Depurar na barra de ferramentas. Você verá o status da execução do pipeline na guia Saída na parte inferior da janela.
  2. Depois que o pipeline for executado corretamente, na barra de ferramentas superior, selecione Publicar tudo. Esta ação publica as entidades (conjuntos de dados e pipelines) que você criou para o Data Factory.
  3. Aguarde até que você veja a mensagem Publicado com êxito. Para ver as mensagens de notificação, selecione Mostrar Notificações no canto superior direito (botão de sino).

Resumo

O pipeline deste exemplo copia dados do Armazenamento de Blobs para o Banco de Dados SQL usando pontos de extremidade privados na Rede Virtual Gerenciada do Data Factory. Você aprendeu a:

  • Criar uma fábrica de dados.
  • Criar um pipeline com uma atividade de cópia.