Historische gegevens opnemen in Azure Data Explorer

Een veelvoorkomend scenario bij het onboarden van Azure Data Explorer is het invoeren van historische gegevens, soms ook backfill genoemd. Het proces omvat het opnemen van gegevens uit een bestaand opslagsysteem in een tabel, een verzameling extensies.

U kunt historische gegevens opnemen met behulp van de creationTime-opname-eigenschap om de aanmaaktijd van extents in te stellen op de tijd waarop de gegevens zijn gemaakt. Als u de aanmaaktijd gebruikt als het criterium voor opnamepartitionering, kunt u uw gegevens in overeenstemming met uw cache - en bewaarbeleid verouderen en tijdfilters efficiënter maken.

De aanmaaktijd voor extents wordt standaard ingesteld op het tijdstip waarop u de gegevens opneemt, wat mogelijk niet het gedrag oplevert dat u verwacht. Stel dat u een tabel hebt met een cacheperiode van 30 dagen en een bewaarperiode van twee jaar. In de normale stroom worden gegevens die tijdens de productie worden opgenomen, gedurende 30 dagen in de cache opgeslagen en vervolgens verplaatst naar koude opslag. Na twee jaar, op basis van de aanmaaktijd, worden oudere gegevens één dag tegelijk verwijderd. Als u echter twee jaar aan historische gegevens inbrengt, waarbij de gegevens standaard worden gemarkeerd met de aanmaaktijd op het moment dat ze worden opgenomen. Dit gedrag produceert mogelijk niet het gewenste resultaat omdat:

  • Alle gegevens worden in de cache geplaatst en blijven er 30 dagen, met meer cache dan verwacht.
  • Oudere gegevens worden niet één dag tegelijk verwijderd; gegevens worden daarom langer dan nodig bewaard in het cluster en worden na twee jaar allemaal tegelijk verwijderd.
  • Gegevens, die eerder zijn gegroepeerd op datum in het bronsysteem, kunnen nu in dezelfde mate samen worden gebatcheerd , wat leidt tot inefficiënte query's.

Diagram met het verwachte versus werkelijke resultaat van het opnemen van historische gegevens met behulp van de standaard aanmaaktijd.

In dit artikel leert u hoe u historische gegevens partitioneren:

  • Gebruik de eigenschap creationTime tijdens de invoer (aanbevolen)

    Neem waar mogelijk historische gegevens op met behulp van de creationTime opname-eigenschap, die u kunt gebruiken om de creatietijd van de extents in te stellen door deze uit het bestand of het blobpad te extraheren. Als uw mapstructuur geen patroon van de aanmaakdatum gebruikt, herstructureer uw bestand- of blobpad om de aanmaaktijd te reflecteren. Met deze methode neemt u de gegevens op in de tabel met de juiste aanmaaktijd en worden de cache- en bewaarperioden correct toegepast.

    Opmerking

    Standaard worden gebieden gepartitioneerd op het moment van maken (opname) en in de meeste gevallen hoeft u geen beleid voor gegevenspartitionering in te stellen.

  • Een partitioneringsbeleid na gegevensinvoer gebruiken

    Als u de creationTime opname-eigenschap niet kunt gebruiken, bijvoorbeeld als u gegevens opneemt met behulp van de Azure Cosmos DB-connector, waarbij u de creatietijd niet kunt beheren, of als u de mapstructuur niet kunt herstructureren, kunt u de tabel na opname opnieuw partitioneren om hetzelfde effect te bereiken met behulp van het partitioneringsbeleid. Deze methode vereist echter mogelijk enige trial-and-error om beleidseigenschappen te optimaliseren en is minder efficiënt dan het gebruik van de creationTime opname-eigenschap. Gebruik deze methode alleen wanneer het gebruik van de creationTime opnameeigenschap niet mogelijk is.

Vereiste voorwaarden

  • Een Microsoft-account of een Microsoft Entra gebruikersidentiteit. U hebt geen Azure abonnement nodig.
  • Een Azure Data Explorer cluster en database. Een cluster en database maken.
  • Een opslagaccount.
  • Installeer creationTime voor de aanbevolen methode voor het gebruik van de opname-eigenschap tijdens de opname.

Historische gegevens opnemen

Partitioneer historische gegevens met behulp van de creationTime opname-eigenschap tijdens opname. Als u deze methode niet kunt gebruiken, kunt u de tabel opnieuw partitioneren na opname met behulp van een partitioneringsbeleid.

LightIngest is handig om historische gegevens van een bestaand opslagsysteem te laden naar Azure Data Explorer. Hoewel u uw eigen opdracht kunt maken met behulp van de lijst met opdrachtregelargumenten, ziet u in dit artikel hoe u deze opdracht automatisch kunt genereren via een opnamewizard. Naast het maken van de opdracht kunt u dit proces gebruiken om een nieuwe tabel te maken en schematoewijzing te maken. Met dit hulpprogramma wordt schematoewijzing afgeleid van uw gegevensset.

Bestemming

  1. Selecteer in de Azure Data Explorer webgebruikersinterface Query in het linkermenu.

  2. Klik met de rechtermuisknop op de database waarin u de gegevens wilt opnemen en selecteer Vervolgens LightIngest.

    Schermopname van de Azure Data Explorer-webgebruikersinterface met het menu Meer database.

    Het venster Gegevens opnemen wordt geopend met het tabblad Doel geselecteerd. De velden Cluster en Database worden automatisch ingevuld.

  3. Selecteer een beoogde tabel. Als u gegevens wilt opnemen in een nieuwe tabel, selecteert u Nieuwe tabel en voert u een tabelnaam in.

    Opmerking

    Tabelnamen kunnen maximaal 1024 tekens zijn, waaronder spaties, alfanumerieke tekens, afbreekstreepjes en onderstrepingstekens. Speciale tekens worden niet ondersteund.

    Schermopname van het doeltabblad met de doeldatabase en -tabel.

  4. Kies Volgende: Bron.

Bron

  1. Selecteer onder Bron selecteren de optie URL toevoegen of Container selecteren.

    • Wanneer u een URL toevoegt, geeft u onder Koppeling naar bron de accountsleutel of SAS-URL op voor een container. U kunt de SAS-URL handmatig of automatisch maken.

    • Wanneer u een container in uw opslagaccount selecteert, selecteert u uw Opslagabonnement, Opslagaccount en Container in de vervolgkeuzelijsten.

      Schermopname van het dialoogvenster voor het selecteren van een container in een opslagabonnement en -account.

    Opmerking

    Invoer ondersteunt een maximale bestandsgrootte van 6 GB. Het wordt aanbevolen bestanden op te nemen tussen 100 MB en 1 GB.

  2. Selecteer Geavanceerde instellingen om aanvullende instellingen voor het opnameproces te definiëren met behulp van LightIngest.

    Schermopname van het selecteren van geavanceerde instellingen voor de opnameverwerking met het hulpprogramma LightIngest.

  3. Definieer in het deelvenster Geavanceerde configuratie de LightIngest-instellingen volgens de volgende tabel.

    Schermopname van het deelvenster Geavanceerde configuratie met de aanvullende instellingen voor de data-invoer verwerking waarbij gebruik wordt gemaakt van het hulpprogramma LightIngest.

    Vastgoed Description
    Aanmaaktijdpatroon Geef op om de eigenschap opnametijd van de gemaakte extent te overschrijven door een patroon, bijvoorbeeld om een datum toe te passen op basis van de mapstructuur van de container. Zie ook het Aanmaaktijdpatroon.
    Blob-naampatroon Geef het patroon op dat wordt gebruikt om de bestanden te identificeren die moeten worden opgenomen. Alle bestanden opnemen die overeenkomen met het blobnaampatroon in de opgegeven container. Ondersteunt jokertekens. Plaats het patroon tussen dubbele aanhalingstekens.
    Tag Een tag die is toegewezen aan de opgenomen gegevens. De tag kan elke tekenreeks zijn.
    Aantal bestanden beperken Geef het aantal bestanden op dat moet worden opgenomen. Neemt de eerste n bestanden op die overeenkomen met het blob-naam patroon, tot het gespecificeerde aantal.
    Wacht niet totdat de opname is voltooid Indien ingesteld, worden de blobs in de wachtrij geplaatst voor opname zonder het opnameproces te bewaken. Als deze niet is ingesteld, blijft LightIngest de opnamestatus peilen totdat de opname is voltooid.
    Alleen geselecteerde items weergeven Vermeld de bestanden in de container, maar neemt ze niet op.
  4. Selecteer Gereed om terug te keren naar het tabblad Bron .

    1. Selecteer desgewenst Bestandsfilters om de gegevens te filteren om alleen bestanden op te nemen in een specifiek mappad of met een bepaalde bestandsextensie.

      Schermopname van het filteren van gegevens op het brontabblad van het scherm Nieuwe gegevens opnemen.

      Standaard wordt een van de bestanden in de container willekeurig geselecteerd en gebruikt om het schema voor de tabel te genereren.

    2. Geef desgewenst onder Schema definiëren het bestand op dat u wilt gebruiken.

  5. Selecteer Volgende: Schema om de configuratie van de tabelkolom weer te geven en te bewerken.

Schema

Het schematabblad biedt een voorbeeld van de gegevens.

Selecteer Volgende om de LightIngest-opdracht te genereren : Opname starten.

U kunt desgewenst het volgende doen:

  • Wijzig de automatisch uitgestelde gegevensindeling door de gewenste indeling te selecteren in de vervolgkeuzelijst.
  • Wijzig de automatisch afgeleide mappingnaam. U kunt alfanumerieke tekens en onderstrepingstekens gebruiken. Spaties, speciale tekens en afbreekstreepjes worden niet ondersteund.
  • Wanneer u een bestaande tabel gebruikt, kunt u het huidige tabelschema behouden als het tabelschema overeenkomt met de geselecteerde indeling.
  • Selecteer Opdrachtviewer om de automatische opdrachten weer te geven en te kopiëren die zijn gegenereerd op basis van uw invoer.
  • Kolommen bewerken. Selecteer onder Gedeeltelijk gegevensvoorbeeld de vervolgkeuzemenu's voor kolommen om verschillende aspecten van de tabel te wijzigen.

De wijzigingen die u in een tabel kunt aanbrengen, zijn afhankelijk van de volgende parameters:

  • Het type tabel is nieuw of bestaand
  • Het mappingtype is nieuw of bestaand
Tabeltype Koppelingstype Beschikbare aanpassingen
Nieuwe tabel Nieuwe kaart Gegevenstype wijzigen, Kolomnaam wijzigen, Nieuwe kolom, Kolom verwijderen, Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
Bestaande tabel Nieuwe kaart Nieuwe kolom (waarop u vervolgens het gegevenstype, de naam kunt wijzigen en bijwerken),
Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
Bestaande koppeling Oplopend sorteren, aflopend sorteren

Opmerking

Wanneer u een nieuwe kolom toevoegt of een kolom bijwerkt, kunt u toewijzingstransformaties wijzigen. Zie Toewijzingstransformaties voor meer informatie

Invoer

  1. Wanneer in de tabel, toewijzing en LightIngest groene vinkjes worden weergegeven, selecteert u het kopieerpictogram rechtsboven in het vak Gegenereerde opdracht om de gegenereerde LightIngest-opdracht te kopiëren.

    Schermopname van het tabblad Samenvatting met de opdracht gegenereerd. U kunt de opdracht kopiëren met behulp van het kopieerpictogram boven het gegenereerde opdrachtvak.

    Opmerking

    Indien nodig kunt u het LightIngest-hulpprogramma downloaden door LightIngest downloaden te selecteren.

  2. Als u het opnameproces wilt voltooien, moet u LightIngest uitvoeren met behulp van de gekopieerde opdracht.