Mining-modellen toevoegen aan een structuur (Analysis Services - Gegevensanalyse)

Van toepassing op: SQL Server 2019 en eerder Analysis Services Azure Analysis Services Fabric/Power BI Premium

Belangrijk

Data mining werd verouderd verklaard in SQL Server 2017 Analysis Services en is nu stopgezet in SQL Server 2022 Analysis Services. Documentatie wordt niet bijgewerkt voor afgeschafte en stopgezette functies. Zie Analysis Services-compatibiliteit met eerdere versies voor meer informatie.

Een mijnbouwstructuur is bedoeld ter ondersteuning van meerdere mijnbouwmodellen. Nadat u de wizard hebt voltooid, kunt u de structuur openen en nieuwe mijnbouwmodellen toevoegen. Telkens wanneer u een model maakt, kunt u een ander algoritme gebruiken, de parameters wijzigen of filters toepassen om een andere subset van de gegevens te gebruiken.

Nieuwe mijnbouwmodellen toevoegen

Wanneer u de wizard Gegevensanalyse gebruikt om een nieuw miningmodel te maken, moet u standaard altijd eerst een mijnbouwstructuur maken. De wizard geeft u vervolgens de mogelijkheid om een eerste mijnbouwmodel aan de structuur toe te voegen. U hoeft echter niet meteen een model te maken. Als u alleen de structuur maakt, hoeft u niet te beslissen welke kolom moet worden gebruikt als voorspelbaar kenmerk of hoe u de gegevens in een bepaald model gebruikt. In plaats daarvan stelt u de algemene gegevensstructuur in die u in de toekomst wilt gebruiken. Later kunt u Data Mining Designer gebruiken om nieuwe miningmodellen toe te voegen die zijn gebaseerd op de structuur.

Opmerking

In DMX begint de instructie CREATE MINING MODEL met het mijnbouwmodel. Dat wil gezegd, u definieert uw keuze voor het mijnbouwmodel en SQL Server Analysis Services genereert automatisch de onderliggende structuur. Later kunt u nieuwe mijnbouwmodellen aan die structuur blijven toevoegen met behulp van de ALTER STRUCTURE... ADD MODEL-instructie.

Een algoritme kiezen

Wanneer u een nieuw model aan een bestaande structuur toevoegt, moet u eerst een algoritme voor gegevensanalyse selecteren dat u in dat model wilt gebruiken. Het kiezen van het algoritme is belangrijk omdat elk algoritme een ander type analyse uitvoert en verschillende vereisten heeft.

Wanneer u een algoritme selecteert dat niet compatibel is met uw gegevens, krijgt u een waarschuwing. In sommige gevallen moet u mogelijk kolommen negeren die niet door het algoritme kunnen worden verwerkt. In andere gevallen zal het algoritme automatisch de aanpassingen voor u aanbrengen. Als uw structuur bijvoorbeeld numerieke gegevens bevat en het algoritme alleen met discrete waarden kan werken, worden de numerieke waarden voor u gegroepeerd in afzonderlijke bereiken. In sommige gevallen moet u de gegevens mogelijk eerst handmatig herstellen door een sleutel te kiezen of een voorspelbaar kenmerk te kiezen.

U hoeft het algoritme niet te wijzigen wanneer u een nieuw model maakt. Vaak kunt u heel verschillende resultaten krijgen met behulp van hetzelfde algoritme, maar door de gegevens te filteren of een parameter zoals de clustermethode of de minimale grootte van de itemset te wijzigen. U wordt aangeraden te experimenteren met meerdere modellen om te zien welke parameters de beste resultaten opleveren.

Houd er rekening mee dat alle nieuwe modellen moeten worden verwerkt voordat u ze kunt gebruiken.

Het gebruik van kolommen specificeren in een nieuw mijnbouwmodel

Wanneer u nieuwe mijnbouwmodellen toevoegt aan een bestaande mijnbouwstructuur, moet u opgeven hoe elke kolom met gegevens door het model moet worden gebruikt. Afhankelijk van het type algoritme dat u voor het model kiest, kunnen sommige van deze keuzes standaard worden gemaakt. Als u geen gebruikstype voor een kolom opgeeft, wordt de kolom niet opgenomen in de mijnbouwstructuur. De gegevens in de kolom kunnen echter nog steeds beschikbaar zijn voor drillthrough, als het model dit ondersteunt.

Kolommen uit de mijnbouwstructuur die door het model worden gebruikt (indien niet ingesteld op Negeren), moeten een sleutel, een invoerkolom, een voorspelbare kolom of een voorspelbare kolom zijn waarvan de waarden ook worden gebruikt als invoer voor het model.

  • Sleutelkolommen bevatten een unieke id voor elke rij in een tabel. Sommige mijnbouwmodellen, zoals modellen die zijn gebaseerd op de reeksclustering of tijdreeksalgoritmen, kunnen meerdere sleutelkolommen bevatten. Deze meerdere sleutels zijn echter geen samengestelde sleutels in relationele zin, maar moeten in plaats daarvan worden geselecteerd om ondersteuning te bieden voor tijdreeks- en reeksclusteranalyse.

  • Invoerkolommen bevatten de informatie waaruit voorspellingen worden gedaan. De wizard Gegevensanalyse biedt de functie Voorstellen , die is ingeschakeld wanneer u een voorspelbare kolom selecteert. Als u op deze knop klikt, zal de wizard de voorspelbare waarden samplen en bepalen welke van de andere kolommen in de structuur goede variabelen zijn. Hiermee worden sleutelkolommen of andere kolommen met veel unieke waarden geweigerd en worden kolommen voorgesteld die lijken te worden gecorreleerd met het resultaat.

    Deze functie is met name handig wanneer gegevenssets meer kolommen bevatten dan u echt nodig hebt om een mijnbouwmodel te bouwen. De functie Voorstellen berekent een numerieke score, van 0 tot 1, die de relatie beschrijft tussen elke kolom in de gegevensset en de voorspelbare kolom. Op basis van deze score stelt de functie kolommen voor die moeten worden gebruikt als invoer voor het mijnbouwmodel. Als u de functie Voorstellen gebruikt, kunt u de voorgestelde kolommen gebruiken, de selecties aanpassen aan uw behoeften of de suggesties negeren.

  • Voorspelbare kolommen bevatten de informatie die u probeert te voorspellen in het mijnbouwmodel. U kunt meerdere kolommen selecteren als de voorspelbare kenmerken. Clusteringmodellen zijn de uitzondering omdat een voorspelbaar kenmerk optioneel is.

    Afhankelijk van het modeltype moet de voorspelbare kolom mogelijk een specifiek gegevenstype zijn: een lineair regressiemodel vereist bijvoorbeeld een numerieke kolom als de voorspelde waarde; Naïve Bayes-algoritme vereist een discrete waarde (en alle invoer moet ook discreet zijn).

Kolominhoud opgeven

Voor sommige kolommen moet u mogelijk ook de kolominhoud opgeven. In SQL Server-gegevensanalyse vertelt de eigenschap Inhoudstype van elke gegevenskolom het algoritme hoe de gegevens in die kolom moeten worden verwerkt. Als uw gegevens bijvoorbeeld een kolom Inkomen hebben, moet u opgeven dat de kolom doorlopende getallen bevat door het inhoudstype in te stellen op Doorlopend. U kunt echter ook opgeven dat de getallen in de kolom Inkomen worden gegroepeerd in buckets door het inhoudstype in te stellen op Discretized en eventueel het exacte aantal buckets op te geven. U kunt verschillende modellen maken waarmee kolommen verschillend worden verwerkt. U kunt bijvoorbeeld één model proberen waarmee klanten in drie leeftijdsgroepen worden gegroepeerd en een ander model dat klanten in tien leeftijdsgroepen laadt.

Zie ook

Mijnbouwstructuren (Analysis Services - Gegevensanalyse)
Een relationele mijnbouwstructuur maken
Eigenschappen van mijnbouwmodel
Kolommen van mijnbouwmodel