Gegevens veilig kopiëren van Azure Blob Storage naar een SQL-database met behulp van privé-eindpunten

Van toepassing op: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory in Microsoft Fabric is de volgende generatie van Azure Data Factory, met een eenvoudigere architectuur, ingebouwde AI en nieuwe functies. Als u nieuw bent in gegevensintegratie, begint u met Fabric Data Factory. Bestaande ADF-workloads kunnen upgraden naar Fabric om toegang te krijgen tot nieuwe mogelijkheden voor gegevenswetenschap, realtime analyses en rapportage.

In deze zelfstudie maakt u een data factory met behulp van de Azure Data Factory gebruikersinterface (UI). De pijplijn in deze data factory kopieert gegevens veilig van Azure Blob-opslag naar een Azure SQL-database (beide die toegang tot alleen geselecteerde netwerken toestaan) met behulp van privé-eindpunten in Azure Data Factory Managed Virtual Network. Het configuratiepatroon in deze zelfstudie geldt voor het kopiëren van een gegevensarchief op basis van bestanden naar een relationeel gegevensarchief. Zie tabel Ondersteunde gegevensarchieven en -indelingen voor een lijst met gegevensarchieven die als bron en als sink worden ondersteund. De functie voor privé-eindpunten is beschikbaar in alle lagen van Azure Data Factory, dus er is geen specifieke laag vereist om deze te gebruiken. Raadpleeg de pagina Azure Data Factory prijzen voor meer informatie over prijzen en categorieën.

Notitie

Zie Inleiding tot Azure Data Factory als u nieuw bent met Data Factory.

In deze zelfstudie voert u de volgende stappen uit:

  • Een data factory maken.
  • Een pijplijn met kopieeractiviteit maken.

Vereisten

  • Azure-abonnement. Als u geen Azure abonnement hebt, maakt u een vrij Azure account voordat u begint.
  • Azure-opslagaccount. U gebruikt de blobopslag als bron-gegevensopslag. Als u geen opslagaccount hebt, raadpleegt u Maak een Azure-opslagaccount voor stappen om er een te maken. Zorg ervoor dat het opslagaccount alleen toegang toestaat vanuit geselecteerde netwerken.
  • Azure SQL Database. U gebruikt de database als sink-gegevensopslag. Als u geen Azure SQL database hebt, raadpleegt u Maak een SQL-database voor stappen om er een te maken. Zorg ervoor dat het SQL Database-account alleen toegang toestaat vanuit geselecteerde netwerken.

Een blob en een SQL-tabel maken

Bereid nu uw blobopslag en SQL-database voor op de handleiding door de volgende stappen te doorlopen.

Een bron-blob maken

  1. Open Kladblok. Kopieer de volgende tekst en sla deze op uw schijf op in het bestand emp.txt:

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Maak in de blobopslag een container met de naam adftutorial. Maak een map aan met de naam invoer in deze container. Vervolgens kunt u het bestand emp.txt uploaden naar de map invoer. Gebruik de Azure-portal of hulpprogramma's zoals Azure Storage Explorer om deze taken uit te voeren.

Een SQL-sink-tabel maken

Gebruik het volgende SQL-script om de tabel dbo.emp te maken in uw SQL database:

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO

CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Een data factory maken

In deze stap maakt u een data factory en start u de Data Factory-gebruikersinterface om een pijplijn te maken in de data factory.

  1. Open Microsoft Edge of Google Chrome. Momenteel bieden alleen Microsoft Edge en Google Chrome-webbrowsers ondersteuning voor de gebruikersinterface van Data Factory.

  2. Selecteer in het linkermenu Een resource maken>Analyse>Data Factory.

  3. Voer op de pagina Nieuwe data factory onder NaamADFTutorialDataFactory in.

    De naam van de Azure data factory moet globally uniek zijn. Als u een foutbericht ontvangt over de naamwaarde, voert u een andere naam in voor de data factory (bijvoorbeeld uwnaamADFTutorialDataFactory). Zie Data Factory naming rules (Naamgevingsregels Data Factory) voor meer informatie over naamgevingsregels voor Data Factory-artefacten.

  4. Selecteer de Azure subscription waarin u de data factory wilt maken.

  5. Voer een van de volgende stappen uit voor Resourcegroep:

    • Selecteer Bestaande gebruiken en selecteer een bestaande resourcegroep in de vervolgkeuzelijst.
    • Selecteer Nieuwe maken en voer de naam van een resourcegroep in.

    Zie Resourcegroepen gebruiken om uw Azure resources te beheren voor meer informatie over resourcegroepen.

  6. Selecteer V2 onder Versie.

  7. Selecteer onder Locatie een locatie voor de data factory. In de vervolgkeuzelijst worden alleen ondersteunde locaties weergegeven. De gegevensarchieven (bijvoorbeeld Azure Storage en SQL Database) en berekeningen (bijvoorbeeld Azure HDInsight) die door de data factory worden gebruikt, kunnen zich in andere regio's bevinden.

  8. Selecteer Maken.

  9. Als het maken is voltooid, ziet u de melding in het meldingencentrum. Klik op Naar de resource gaan om naar de pagina Data Factory te gaan.

  10. Selecteer Open op de tegel Open Azure Data Factory Studio om de Data Factory UI in een afzonderlijk tabblad te starten.

Maak een Azure Integration Runtime in een Managed Virtual Network van Data Factory.

In deze stap maakt u een Azure Integration Runtime en schakelt u Data Factory Managed Virtual Network in.

  1. Ga in de Data Factory-portal naar Manage en selecteer Nieuw om een nieuwe Azure Integration Runtime te maken.

    Schermafbeelding van het maken van een nieuwe Azure integration runtime.

  2. Kies op de installatiepagina van Integration Runtime welke Integration Runtime moet worden gemaakt op basis van de vereiste mogelijkheden. Selecteer in deze zelfstudie Azure, zelf-hostend en klik vervolgens op Continue.

  3. Selecteer Azure en klik vervolgens op Continue om een Azure Integration Runtime te maken.

    Schermafbeelding met een nieuwe Azure integration runtime.

  4. Selecteer onder Configuratie van virtueel netwerk (preview) de optie Inschakelen.

    Schermafbeelding met het inschakelen van een nieuwe Azure integration runtime.

  5. Selecteer Maken.

Een pipeline maken

In deze stap maakt u een pijplijn met kopieeractiviteit in de data factory. De kopieeractiviteit kopieert gegevens van de blobopslag naar SQL Database. In de Quickstart-tutorial hebt u een pijplijn gemaakt door deze stappen te volgen:

  1. Maak een gekoppelde service.
  2. Maak invoer- en uitvoergegevenssets.
  3. Een pipeline maken.

In deze zelfstudie begint u met het maken van een pijplijn. Vervolgens maakt u gekoppelde services en gegevenssets wanneer u deze nodig hebt om de pijplijn te configureren.

  1. Selecteer Orchestrate op de startpagina.

    Schermopname van de startpagina van data factory met de knop Orchestrate gemarkeerd.

  2. Voer op het deelvenster Eigenschappen voor de pijplijn CopyPipeline in als naam van de pijplijn.

  3. Breid in de werkset Activiteiten de categorie Verplaatsen en transformeren uit. Sleep de activiteit Gegevens kopiëren van de werkset en naar het ontwerpoppervlak voor pijplijnen. Geef CopyFromBlobToSql als naam op.

    Schermopname met de kopieeractiviteit.

Een bron configureren

Tip

In deze zelfstudie gebruikt u Accountsleutel als verificatietype voor uw brondatastore. U kunt ook andere ondersteunde verificatiemethoden kiezen, zoals SAS URI, service-principal en beheerde identiteit, als dat nodig is. Zie de bijbehorende secties in Copy en transformeer gegevens in Azure Blob Storage met behulp van Azure Data Factory voor meer informatie.

Als u geheimen voor gegevensarchieven veilig wilt opslaan, raden we u ook aan Azure Key Vault te gebruiken. Zie Referenties opslaan in Azure Key Vault voor meer informatie en illustraties.

Een brongegevensset en een gekoppelde service maken

  1. Ga naar het tabblad Bron . Selecteer + Nieuw om een brongegevensset te maken.

  2. Selecteer in het dialoogvenster Nieuwe gegevenssetAzure Blob Storage en selecteer vervolgens Continue. De brongegevens bevinden zich in Blob Storage, dus selecteert u Azure Blob Storage voor de brongegevensset.

  3. Selecteer in het dialoogvenster Indeling selecteren het indelingstype van uw gegevens en selecteer vervolgens Doorgaan.

  4. Voer in het dialoogvenster Eigenschappen instellenSourceBlobDataset in voor Naam. Schakel het selectievakje voor Eerste rij als header in. Selecteer onder het tekstvak Gekoppelde service de optie + Nieuw.

  5. In het dialoogvenster Nieuwe gekoppelde service (Azure Blob Storage), voer AzureStorageLinkedService in als Name en selecteer uw opslagaccount in de lijst Opslagaccountnaam.

  6. Zorg ervoor dat u Interactieve creatie inschakelt. Het kan ongeveer één minuut duren voordat deze is ingeschakeld.

    Schermopname waarin interactieve creatie wordt weergegeven.

  7. Selecteer Verbinding testen. Dit moet mislukken wanneer het opslagaccount alleen toegang toestaat vanuit het geselecteerde netwerk en vereist dat Data Factory een privé-eindpunt maakt dat moet worden goedgekeurd voordat het kan worden gebruikt. In het foutbericht wordt een koppeling weergegeven om een privé-eindpunt te maken dat u kunt volgen om een beheerd privé-eindpunt te maken. U kunt ook rechtstreeks naar het tabblad Beheren gaan en de instructies in de volgende sectie volgen om een beheerd privé-eindpunt te maken.

    Notitie

    Het tabblad Beheren is mogelijk niet beschikbaar voor alle exemplaren van data factory. Als u het niet ziet, kunt u toegang krijgen tot privé-eindpunten door Auteur>Verbindingen>Privé-eindpunt te selecteren.

  8. Houd het dialoogvenster geopend en ga vervolgens naar uw opslagaccount.

  9. Volg de instructies in deze sectie om de persoonlijke koppeling goed te keuren.

  10. Ga terug naar het dialoogvenster. Selecteer Test de verbinding opnieuw en selecteer vervolgens Maken om de gekoppelde service te implementeren.

  11. Nadat de gekoppelde service is gemaakt, gaat u terug naar de pagina Eigenschappen instellen. Selecteer naast Bestandspad de knop Bladeren.

  12. Ga naar de map adftutorial/input, selecteer het bestand emp.txt en klik vervolgens op Voltooien.

  13. Selecteer OK. U wordt automatisch naar de pagina met de pijplijn geleid. Controleer op het tabblad Bron of SourceBlobDataset is geselecteerd. Selecteer Gegevens vooraf bekijken om een voorbeeld van de gegevens op deze pagina te bekijken.

    Schermopname met de brongegevensset.

Een beheerd privé-eindpunt maken

Als u de hyperlink niet hebt geselecteerd tijdens het testen van de verbinding, volgt u het pad. Nu moet u een beheerd privé-eindpunt maken dat u verbindt met de gekoppelde service die u hebt gemaakt.

  1. Ga naar het tabblad Beheren.

    Notitie

    Het tabblad Beheren is mogelijk niet beschikbaar voor alle exemplaren van Data Factory. Als u het niet ziet, kunt u toegang krijgen tot privé-eindpunten door Auteur>Verbindingen>Privé-eindpunt te selecteren.

  2. Ga naar het gedeelte Beheerde privé-eindpunten.

  3. Selecteer + Nieuw onder Beheerde privé-eindpunten.

    Schermafbeelding die de knop Nieuw voor beheerde privé-eindpunten laat zien.

  4. Selecteer de tegel Azure Blob Storage in de lijst en selecteer Continue.

  5. Voer de naam in van het opslagaccount dat u hebt gemaakt.

  6. Selecteer Maken.

  7. Na enkele seconden wordt voor de privékoppeling een goedkeuring vereist.

  8. Selecteer het privé-eindpunt dat u hebt gemaakt. U ziet een hyperlink waarmee u het privé-eindpunt kunt goedkeuren op het niveau van het opslagaccount.

    Schermafbeelding die het deelvenster Beheerd privé-eindpunt toont.

  1. Ga in het opslagaccount naar Privé-eindpuntverbindingen in het gedeelte Instellingen.

  2. Selecteer het selectievakje voor het privé-eindpunt dat u hebt gemaakt en selecteer Goedkeuren.

    Schermopname van de knop Goedkeuren voor het privé-eindpunt.

  3. Voeg een beschrijving toe en selecteer ja.

  4. Ga terug naar het gedeelte Beheerde privé-eindpunten van het tabblad Beheren in Data Factory.

  5. Na ongeveer een of twee minuten ziet u dat de goedkeuring van uw privé-eindpunt wordt weergegeven in de Data Factory-gebruikersinterface.

Een sink configureren

Tip

In deze zelfstudie gebruikt u SQL-verificatie als verificatietype voor uw sink-gegevensarchief. U kunt ook andere ondersteunde verificatiemethoden kiezen, zoals service-principal en beheerde identiteit, als dat nodig is. Zie de bijbehorende secties in Copy en transformeer gegevens in Azure SQL Database met behulp van Azure Data Factory voor meer informatie.

Als u geheimen voor gegevensarchieven veilig wilt opslaan, raden we u ook aan Azure Key Vault te gebruiken. Zie Referenties opslaan in Azure Key Vault voor meer informatie en illustraties.

Maak een sink-gegevensset en gekoppelde service

  1. Ga naar het tabblad Sink en selecteer +Nieuw om een sink-gegevensset te maken.

  2. Voer in het dialoog venster Nieuwe gegevenssetSQL in het zoekvak in om de connectors te filteren. Selecteer Azure SQL Database en selecteer vervolgens Continue. In deze zelfstudie kopieert u gegevens naar een SQL database.

  3. Voer in het dialoogvenster Eigenschappen instellenOutputSqlDataset in voor Naam. Selecteer + Nieuw in de vervolgkeuzelijst Gekoppelde service. Een gegevensset moet worden gekoppeld aan een gekoppelde service. De gekoppelde service heeft de connection string die Data Factory gebruikt om tijdens runtime verbinding te maken met de SQL-database. De dataset specificeert de container, directory en het bestand (optioneel) waarnaar de gegevens worden gekopieerd.

  4. Voer in het dialoogvenster Nieuwe gekoppelde service (Azure SQL Database) de volgende stappen uit:

    1. Geef AzureSqlDatabaseLinkedService op als Naam.
    2. Selecteer uw SQL Server-exemplaar onder Servernaam.
    3. Zorg ervoor dat u Interactieve creatie inschakelt.
    4. Selecteer uw SQL-database bij Databasenaam.
    5. Voer bij Gebruikersnaam de naam van de gebruiker in.
    6. Geef bij Wachtwoord het wachtwoord van de gebruiker op.
    7. Selecteer Verbinding testen. Dit moet mislukken omdat de SQL-server alleen toegang toestaat vanuit Geselecteerde netwerken en vereist dat Data Factory een privé-eindpunt maakt dat moet worden goedgekeurd voordat het kan worden gebruikt. In het foutbericht wordt een koppeling weergegeven om een privé-eindpunt te maken dat u kunt volgen om een beheerd privé-eindpunt te maken. U kunt ook rechtstreeks naar het tabblad Beheren gaan en de instructies in de volgende sectie volgen om een beheerd privé-eindpunt te maken.
    8. Houd het dialoogvenster geopend en ga vervolgens naar de geselecteerde SQL-server.
    9. Volg de instructies in deze sectie om de persoonlijke koppeling goed te keuren.
    10. Ga terug naar het dialoogvenster. Selecteer Test de verbinding opnieuw en selecteer vervolgens Maken om de gekoppelde service te implementeren.
  5. Deze gaat automatisch naar het dialoogvenster Eigenschappen instellen. Selecteer bij Tabel[dbo].[emp]. Selecteer vervolgens OK.

  6. Ga naar het tabblad met de pijplijn en bevestig in de Sink dataset dat OutputSqlDataset is geselecteerd.

    Schermopname met het tabblad Pijplijn.

Optioneel kunt u het schema van de bron toewijzen aan het overeenkomstige schema van het doel door Schematoewijzing in kopieeractiviteit te volgen.

Een beheerd privé-eindpunt maken

Als u de hyperlink niet hebt geselecteerd tijdens het testen van de verbinding, volgt u het pad. Nu moet u een beheerd privé-eindpunt maken dat u verbindt met de gekoppelde service die u hebt gemaakt.

  1. Ga naar het tabblad Beheren.

  2. Ga naar het gedeelte Beheerde privé-eindpunten.

  3. Selecteer + Nieuw onder Beheerde privé-eindpunten.

    Schermafbeelding die de knop Nieuw voor beheerde privé-eindpunten laat zien.

  4. Selecteer de tegel Azure SQL Database in de lijst en selecteer Continue.

  5. Voer de naam in van de SQL-Server die u hebt geselecteerd.

  6. Selecteer Maken.

  7. Na enkele seconden wordt voor de privékoppeling een goedkeuring vereist.

  8. Selecteer het privé-eindpunt dat u hebt gemaakt. U ziet een hyperlink waarmee u het privé-eindpunt kunt goedkeuren op het niveau van de SQL-server.

  1. Ga in de SQL-server naar Privé-eindpuntverbindingen in het gedeelte Instellingen.
  2. Selecteer het selectievakje voor het privé-eindpunt dat u hebt gemaakt en selecteer Goedkeuren.
  3. Voeg een beschrijving toe en selecteer ja.
  4. Ga terug naar het gedeelte Beheerde privé-eindpunten van het tabblad Beheren in Data Factory.
  5. Het duurt een of twee minuten voordat de goedkeuring voor uw privé-eindpunt wordt weergegeven.

De pijplijn debuggen en publiceren

U kunt fouten opsporen in een pijplijn voordat u artefacten (gekoppelde services, gegevenssets en pijplijn) publiceert naar Data Factory of uw eigen Azure Repos Git-opslagplaats.

  1. Selecteer Fouten opsporen om fouten op te sporen in de pijplijn. De status van de pijplijnuitvoering wordt weergegeven op het tabblad Uitvoer onder in het venster.
  2. Nadat de pijplijn succesvol kan worden uitgevoerd, selecteert u Alles publiceren in de bovenste werkbalk. Met deze actie publiceert u entiteiten (gegevenssets en pijplijnen) die u in Data Factory hebt gemaakt.
  3. Wacht totdat het bericht Successfully published wordt weergegeven. Als u meldingsberichten wilt zien, selecteert u in de rechter bovenhoek Meldingen weergeven (belknop).

Samenvatting

De pijplijn in dit voorbeeld kopieert gegevens van Blob Storage naar SQL Database met behulp van privé-eindpunten in beheerde Virtual Network van Data Factory. U hebt geleerd hoe u:

  • Een data factory maken.
  • Een pijplijn met kopieeractiviteit maken.