Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Van toepassing op:
SQL Server 2019 en eerder Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Belangrijk
Data mining werd verouderd verklaard in SQL Server 2017 Analysis Services en is nu stopgezet in SQL Server 2022 Analysis Services. Documentatie wordt niet bijgewerkt voor afgeschafte en stopgezette functies. Zie Analysis Services-compatibiliteit met eerdere versies voor meer informatie.
Nadat u een miningmodel hebt ontworpen en verwerkt met behulp van gegevens uit de onderliggende mijnbouwstructuur, is het mijnbouwmodel voltooid en bevat het de inhoud van het miningmodel. U kunt deze inhoud gebruiken om voorspellingen te doen of uw gegevens te analyseren.
De inhoud van het miningmodel bevat metagegevens over het model, statistieken over de gegevens en patronen die zijn gedetecteerd door het mining-algoritme. Afhankelijk van het gebruikte algoritme kan de modelinhoud regressieformules, de definities van regels en itemsets of gewichten en andere statistieken bevatten.
Ongeacht het algoritme dat is gebruikt, wordt de inhoud van het miningmodel weergegeven in een standaardstructuur. U kunt door de structuur bladeren in de Microsoft Generic Content Tree Viewer, geleverd in SQL Server Data Tools en vervolgens overschakelen naar een van de aangepaste kijkers om te zien hoe de informatie wordt geïnterpreteerd en grafisch wordt weergegeven voor elk modeltype. U kunt ook query's maken op basis van de inhoud van het miningmodel met behulp van een client die ondersteuning biedt voor de MINING_MODEL_CONTENT schemarijset. Zie Gegevensmijnbouw-querytaken en handleidingen voor meer informatie.
In deze sectie wordt de basisstructuur beschreven van de inhoud die wordt geleverd voor allerlei soorten mijnbouwmodellen. Hierin worden de knooppunttypen beschreven die gebruikelijk zijn voor alle inhoud van het miningmodel en worden richtlijnen gegeven voor het interpreteren van de informatie.
Structuur van mijnbouwmodelinhoud
Inhoud van miningmodel per algoritmetype
Hulpprogramma's voor het weergeven van miningmodelinhoud
Hulpprogramma's voor het raadplegen van miningmodel-inhoud
Structuur van mijnbouwmodelinhoud
De inhoud van elk model wordt weergegeven als een reeks knooppunten. Een knooppunt is een object in een mijnbouwmodel met metagegevens en informatie over een deel van het model. Knooppunten worden gerangschikt in een hiërarchie. De exacte rangschikking van knooppunten in de hiërarchie en de betekenis van de hiërarchie is afhankelijk van het algoritme dat u hebt gebruikt. Als u bijvoorbeeld een beslissingsstructurenmodel maakt, kan het model meerdere bomen bevatten, die allemaal zijn verbonden met de hoofdmap van het model; Als u een neuraal netwerkmodel maakt, kan het model een of meer netwerken bevatten, plus een statistiekenknooppunt.
Het eerste knooppunt in elk model wordt het hoofdknooppunt of het bovenliggende modelknooppunt genoemd. Elk model heeft een hoofdknooppunt (NODE_TYPE = 1). Het hoofdknooppunt bevat doorgaans enkele metagegevens over het model en het aantal onderliggende knooppunten, maar weinig aanvullende informatie over de patronen die door het model zijn gedetecteerd.
Afhankelijk van het algoritme dat u hebt gebruikt om het model te maken, heeft het hoofdknooppunt een verschillend aantal onderliggende knooppunten. Kinderknooppunten hebben verschillende betekenissen en bevatten verschillende inhoud, afhankelijk van het algoritme en de complexiteit en diepte van de gegevens.
Knooppunten in miningmodelinhoud
In een mijnbouwmodel is een knooppunt een container voor algemeen gebruik waarin informatie over het hele of een deel van het model wordt opgeslagen. De structuur van elk knooppunt is altijd hetzelfde en bevat de kolommen die zijn gedefinieerd door de rijset van het gegevensanalyseschema.
Elk knooppunt bevat metagegevens over het knooppunt, inclusief een id die uniek is binnen elk model, de id van het bovenliggende knooppunt en het aantal onderliggende knooppunten dat het knooppunt heeft. De metagegevens identificeren het model waartoe het knooppunt behoort en de databasecatalogus waar dat specifieke model wordt opgeslagen. Aanvullende inhoud in het knooppunt verschilt, afhankelijk van het type algoritme dat u hebt gebruikt om het model te maken, en kan het volgende bevatten:
Het aantal cases in de trainingsgegevens die een bepaalde voorspelde waarde ondersteunen.
Statistieken, zoals gemiddelde, standaarddeviatie of variantie.
Coëfficiënten en formules.
Definitie van regels en zijwijzers.
XML-fragmenten die een deel van het model beschrijven.
Lijst met typen mining-inhoudsknooppunten
De volgende tabel bevat de verschillende typen knooppunten die worden gegenereerd in dataminingmodellen. Omdat elk algoritme informatie anders verwerkt, genereert elk model slechts een paar specifieke soorten knooppunten. Als u het algoritme wijzigt, kan het type knooppunten veranderen. Als u het model opnieuw verwerkt, kan de inhoud van elk knooppunt veranderen.
Opmerking
Als u een andere data mining-service gebruikt of als u uw eigen invoegtoepassingsalgoritmen maakt, zijn er mogelijk extra aangepaste knooppunttypen beschikbaar.
| NODE_TYPE ID | Knooppuntlabel | Inhoud van knooppunt |
|---|---|---|
| 1 | Model | Metagegevens en hoofdinhoudsknooppunt. Is van toepassing op alle modeltypen. |
| 2 | Tree | Hoofdknooppunt van een classificatiestructuur. Van toepassing op beslissingsstructuurmodellen. |
| 3 | Interieur | Binnenste splitsknooppunt in een boom. Van toepassing op beslissingsstructuurmodellen. |
| 4 | Distributie | Terminal node van een boom. Van toepassing op beslissingsstructuurmodellen. |
| 5 | Cluster | Cluster gedetecteerd door het algoritme. Van toepassing op clusteringmodellen en sequentieclusteringmodellen. |
| 6 | Onbekend | Onbekend knooppunttype. |
| 7 | ItemSet | Itemset gedetecteerd door het algoritme. Van toepassing op koppelingsmodellen of reeksclustermodellen. |
| 8 | AssociationRule | Koppelingsregel gedetecteerd door het algoritme. Van toepassing op koppelingsmodellen of reeksclustermodellen. |
| 9 | VoorspelbaarAttribuut | Voorspelbaar kenmerk. Is van toepassing op alle modeltypen. |
| 10 | InputAttribute | Invoerkenmerk. Van toepassing op beslissingsstructuren en Naïve Bayes-modellen. |
| 11 | InputAttributeState | Statistieken over de statussen van een invoerkenmerk. Van toepassing op beslissingsstructuren en Naïve Bayes-modellen. |
| 13 | Sequentie | Bovenste knooppunt voor een Markov-modelonderdeel van een reekscluster. Is van toepassing op sequentieclustermodellen. |
| 14 | Transition | Markov-overgangsmatrix. Is van toepassing op sequentieclustermodellen. |
| 15 | TimeSeries | Niet-wortelknooppunt van een tijdreeksboom. Alleen van toepassing op tijdreeksmodellen. |
| 16 | TsTree | Hoofdknooppunt van een tijdreeksstructuur die overeenkomt met een voorspelbare tijdreeks. Is van toepassing op tijdreeksmodellen en alleen als het model is gemaakt met behulp van de parameter MIXED. |
| 17 | NNetSubnetwork | Eén subnetwerk. Van toepassing op neurale netwerkmodellen. |
| 18 | NNetInputLayer | Groep die de knooppunten van de invoerlaag bevat. Van toepassing op neurale netwerkmodellen. |
| 19 | NNetHiddenLayer | Groepen met de knooppunten die de verborgen laag beschrijven. Van toepassing op neurale netwerkmodellen. |
| 21 | NNetOutputLayer | Groepen die de knooppunten van de uitvoerlaag bevatten. Van toepassing op neurale netwerkmodellen. |
| 21 | NNetInputNode | Knooppunt in de invoerlaag die overeenkomt met een invoerkenmerk met de bijbehorende statussen. Van toepassing op neurale netwerkmodellen. |
| 22 | NNetHiddenNode | Knooppunt in de verborgen laag. Van toepassing op neurale netwerkmodellen. |
| 23 | NNetOutputNode | Knooppunt in de uitvoerlaag. Dit knooppunt komt meestal overeen met een uitvoerkenmerk en de bijbehorende statussen. Van toepassing op neurale netwerkmodellen. |
| 24 | NNetMarginalNode | Marginale statistieken over de trainingsset. Van toepassing op neurale netwerkmodellen. |
| vijfentwintig | RegressionTreeRoot | Wortel van een regressieboom. Is van toepassing op lineaire regressiemodellen en op beslissingsstructuren die continue invoerkenmerken bevatten. |
| 26 | NaiveBayesMarginalStatNode | Marginale statistieken over de trainingsset. Van toepassing op Naïve Bayes-modellen. |
| 27 | ArimaRoot | Hoofdknooppunt van een ARIMA-model. Alleen van toepassing op tijdreeksmodellen die gebruikmaken van het ARIMA-algoritme. |
| 28 | ArimaPeriodiekeStructuur | Een periodieke structuur in een ARIMA-model. Alleen van toepassing op tijdreeksmodellen die gebruikmaken van het ARIMA-algoritme. |
| 29 | ArimaAutoRegressive | Autoregressieve coëfficiënt voor één term in een ARIMA-model. Alleen van toepassing op tijdreeksmodellen die gebruikmaken van het ARIMA-algoritme. |
| 30 | ArimaMovingAverage | Zwevende gemiddeldecoëfficiënt voor één term in een ARIMA-model. Alleen van toepassing op tijdreeksmodellen die gebruikmaken van het ARIMA-algoritme. |
| 1000 | CustomBase | Beginpunt voor aangepaste knooppunttypen. Aangepaste knooppunttypen moeten gehele getallen groter zijn dan deze constante. Is van toepassing op modellen die zijn gemaakt met behulp van aangepaste invoegtoepassingsalgoritmen. |
Knooppunt-id, naam, bijschrift en beschrijving
Het hoofdknooppunt van elk model heeft altijd de unieke id (NODE_UNIQUE_NAME) van 0. Alle knooppunt-id's worden automatisch toegewezen door Analysis Services en kunnen niet worden gewijzigd.
Het hoofdknooppunt voor elk model bevat ook enkele basismetagegevens over het model. Deze metagegevens omvatten de Analysis Services-database waarin het model wordt opgeslagen (MODEL_CATALOG), het schema (MODEL_SCHEMA) en de naam van het model (MODEL_NAME). Deze informatie wordt echter herhaald in alle knooppunten van het model, dus u hoeft geen query uit te voeren op het hoofdknooppunt om deze metagegevens op te halen.
Naast een naam die wordt gebruikt als de unieke id, heeft elk knooppunt een naam (NODE_NAME). Deze naam wordt automatisch gemaakt door het algoritme voor weergavedoeleinden en kan niet worden bewerkt.
Opmerking
Met het Microsoft Clustering-algoritme kunnen gebruikers beschrijvende namen toewijzen aan elk cluster. Deze vriendelijke namen worden echter niet op de server bewaard en als u het model opnieuw verwerkt, worden nieuwe clusternamen gegenereerd.
Het bijschrift en de beschrijving voor elk knooppunt worden automatisch gegenereerd door het algoritme en fungeren als labels om inzicht te krijgen in de inhoud van het knooppunt. De tekst die voor elk veld wordt gegenereerd, is afhankelijk van het modeltype. In sommige gevallen kan de naam, het bijschrift en de beschrijving exact dezelfde tekenreeks bevatten, maar in sommige modellen kan de beschrijving aanvullende informatie bevatten. Zie het onderwerp over het afzonderlijke modeltype voor meer informatie over de implementatie.
Opmerking
Analysis Services-server biedt alleen ondersteuning voor het wijzigen van de naam van knooppunten als u modellen bouwt met behulp van een aangepast invoegtoepassingsalgoritmen waarmee de naam wordt gewijzigd. Om hernoemen in te schakelen, moet u de methoden overschrijven wanneer u het invoegtoepassingsalgoritme maakt.
Knooppuntouders, Knooppuntkinderen en Knooppuntkardinaliteit
De relatie tussen ouder- en kindknooppunten in een boomstructuur wordt bepaald door de waarde van de kolom PARENT_UNIQUE_NAME. Deze waarde wordt opgeslagen in het kindknooppunt en geeft de id van het ouderknooppunt aan. Hier volgen enkele voorbeelden van hoe deze informatie kan worden gebruikt:
Een PARENT_UNIQUE_NAME die NULL is, betekent dat het knooppunt het bovenste knooppunt van het model is.
Als de waarde van PARENT_UNIQUE_NAME 0 is, moet het knooppunt een directe afstammeling zijn van het bovenste knooppunt in het model. Dit komt doordat de id van het hoofdknooppunt altijd 0 is.
U kunt functies in een DMX-query (Data Mining Extensions) gebruiken om afstammelingen of ouders van een bepaald knooppunt te vinden. Zie Data Mining-query's voor meer informatie over het gebruik van functies in query's.
Kardinaliteit verwijst naar het aantal items in een set. In de context van een verwerkt mijnbouwmodel geeft kardinaliteit het aantal onderliggende elementen in een bepaald knooppunt aan. Als een beslissingsstructuurmodel bijvoorbeeld een knooppunt heeft voor [Jaarlijks inkomen] en dat knooppunt heeft twee kindknooppunten, waarvan één voor de voorwaarde [Jaarlijks inkomen] = Hoog en één voor de voorwaarde [Jaarlijks inkomen] = Laag, dan is de waarde van CHILDREN_CARDINALITY voor het knooppunt [Jaarlijks inkomen] 2.
Opmerking
In SQL Server Analysis Services worden alleen de directe onderliggende knooppunten geteld bij het berekenen van de kardinaliteit van een knooppunt. Als u echter een aangepast invoegtoepassingsalgoritme maakt, kunt u CHILDREN_CARDINALITY overbelasten om kardinaliteit anders te tellen. Dit kan handig zijn, bijvoorbeeld als u het totale aantal afstammelingen wilt tellen, niet alleen de directe kinderen.
Hoewel kardinaliteit op dezelfde manier wordt geteld voor alle modellen, verschilt de manier waarop u de kardinaliteitswaarde interpreteert of gebruikt, afhankelijk van het modeltype. In een clustermodel geeft de kardinaliteit van het bovenste knooppunt bijvoorbeeld het totale aantal gevonden clusters aan. In andere typen modellen kan kardinaliteit altijd een setwaarde hebben, afhankelijk van het knooppunttype. Zie het onderwerp over het afzonderlijke modeltype voor meer informatie over het interpreteren van kardinaliteit.
Opmerking
Sommige modellen, zoals modellen die zijn gemaakt door het Microsoft Neural Network-algoritme, bevatten bovendien een speciaal knooppunttype dat beschrijvende statistieken biedt over de trainingsgegevens voor het hele model. Deze knooppunten hebben per definitie nooit onderliggende knooppunten.
Knooppuntdistributie
De kolom NODE_DISTRIBUTION bevat een geneste tabel die in veel knooppunten belangrijke en gedetailleerde informatie biedt over de patronen die door het algoritme zijn gedetecteerd. De exacte statistieken in deze tabel veranderen, afhankelijk van het modeltype, de positie van het knooppunt in de structuur en of het voorspelbare kenmerk een continue numerieke waarde of een discrete waarde is; Ze kunnen echter de minimum- en maximumwaarden van een kenmerk bevatten, gewichten die zijn toegewezen aan waarden, het aantal gevallen in een knooppunt, coëfficiënten die worden gebruikt in een regressieformule en statistische metingen zoals standaarddeviatie en variantie. Zie het onderwerp voor het specifieke type model waarmee u werkt voor meer informatie over het interpreteren van knooppuntdistributie.
Opmerking
De NODE_DISTRIBUTION tabel kan leeg zijn, afhankelijk van het knooppunttype. Sommige knooppunten dienen bijvoorbeeld alleen om een verzameling onderliggende knooppunten te ordenen en het zijn de onderliggende knooppunten die de gedetailleerde statistieken bevatten.
De geneste tabel, NODE_DISTRIBUTION, bevat altijd de volgende kolommen. De inhoud van elke kolom is afhankelijk van het modeltype. Zie Mining Model Content by Algorithm Type voor meer informatie over specifieke modeltypen.
ATTRIBUTE_NAME
Inhoud verschilt per algoritme. Dit kan de naam zijn van een kolom, zoals een voorspelbaar kenmerk, een regel, een itemset of een stukje informatie dat intern is voor het algoritme, zoals een onderdeel van een formule.
Deze kolom kan ook een kenmerk-waardepaar bevatten.
ATTRIBUTE_VALUE
Waarde van het kenmerk met de naam in ATTRIBUTE_NAME.
Als de kenmerknaam een kolom is, bevat de ATTRIBUTE_VALUE in het meest eenvoudige geval een van de discrete waarden voor die kolom.
Afhankelijk van hoe het algoritme waarden verwerkt, kan de ATTRIBUTE_VALUE ook een vlag bevatten die aangeeft of er een waarde bestaat voor het kenmerk (Bestaand) of dat de waarde null is (ontbreekt).
Als uw model bijvoorbeeld is ingesteld om klanten te vinden die ten minste één keer een bepaald item hebben gekocht, bevat de kolom ATTRIBUTE_NAME mogelijk het kenmerk-waardepaar waarmee het interesse-item wordt gedefinieerd, zoals Model = 'Water bottle', en de kolom ATTRIBUTE_VALUE alleen het trefwoord Bestaand of Ontbreekt bevat.
ONDERSTEUNING
Het aantal gevallen met dit kenmerk-waardepaar of die deze itemset of regel bevatten.
Over het algemeen geeft de ondersteuningswaarde voor elk knooppunt aan hoeveel gevallen in de trainingsset zijn opgenomen in het huidige knooppunt. In de meeste modeltypen vertegenwoordigt ondersteuning een exact aantal cases. Ondersteuningswaarden zijn handig omdat u de distributie van gegevens in uw trainingscases kunt bekijken zonder dat u query's hoeft uit te voeren op de trainingsgegevens. De Analysis Services-server maakt ook gebruik van deze opgeslagen waarden om de opgeslagen kans te berekenen ten opzichte van eerdere waarschijnlijkheid, om te bepalen of deductie sterk of zwak is.
In een classificatiestructuur geeft de ondersteuningswaarde bijvoorbeeld het aantal gevallen aan met de beschreven combinatie van kenmerken.
In een beslisboom is de som van de ondersteuning op elk niveau van een boom gelijk aan de ondersteuning van het bovenliggende knooppunt. Als een model met 1200 gevallen bijvoorbeeld gelijkmatig wordt verdeeld naar geslacht en vervolgens gelijkelijk wordt onderverdeeld naar drie inkomenswaarden - Laag, Middel en Hoog - dan zullen de onderliggende knooppunten van knooppunt (2), namelijk knooppunten (4), (5) en (6), altijd samen optellen tot hetzelfde aantal gevallen als knooppunt (2).
| Knooppunt-id en knooppuntkenmerken | Aantal ondersteuningen |
|---|---|
| Modelwortel | 1200 |
| (2) Geslacht = Mannelijk (3) Geslacht = Vrouw |
600 600 |
| (4) Geslacht = Mannelijk en Inkomen = Hoog (5) Geslacht = Mannelijk en Inkomen = Gemiddeld (6) Geslacht = Mannelijk en Inkomen = Laag |
200 200 200 |
| (7) Geslacht = Vrouw en Inkomen = Hoog (8) Geslacht = Vrouw en Inkomen = Gemiddeld (9) Geslacht = Vrouw en Inkomen = Laag |
200 200 200 |
Voor een clusteringmodel kan het aantal ondersteuning worden gewogen om de waarschijnlijkheid op te nemen van het behoren tot meerdere clusters. Meerdere clusterlidmaatschappen zijn de standaardclustermethode. In dit scenario kan de ondersteuning in deze modellen niet optellen tot 100 procent over alle clusters, omdat elk geval niet noodzakelijkerwijs tot één enkele cluster behoort.
WAARSCHIJNLIJKHEID
Geeft de waarschijnlijkheid voor dit specifieke knooppunt in het hele model aan.
Over het algemeen vertegenwoordigt kans de ondersteuning voor deze specifieke waarde, gedeeld door het totale aantal gevallen binnen het knooppunt (NODE_SUPPORT).
Waarschijnlijkheid wordt echter enigszins aangepast om vooroordelen te elimineren die worden veroorzaakt door ontbrekende waarden in de gegevens.
Als de huidige waarden voor [Totaal aantal kinderen] bijvoorbeeld 'Één' en 'Twee' zijn, wilt u voorkomen dat u een model maakt dat voorspelt dat het onmogelijk is om geen kinderen te hebben of drie kinderen te hebben. Om ervoor te zorgen dat ontbrekende waarden onwaarschijnlijk zijn, maar niet onmogelijk, voegt het algoritme altijd 1 toe aan het aantal werkelijke waarden voor elk kenmerk.
Voorbeeld:
Kans op [Totaal aantal kinderen = één] = [Aantal gevallen waarbij totaal aantal kinderen = één] + 1/[aantal van alle gevallen] + 3
Kans op [Totaal aantal kinderen = twee]= [aantal gevallen waarbij totaal aantal kinderen = twee] +1/[aantal van alle gevallen] +3
Opmerking
De aanpassing van 3 wordt berekend door 1 toe te voegen aan het totale aantal bestaande waarden, n.
Na aanpassing tellen de waarschijnlijkheden voor alle waarden nog steeds tot 1. De waarschijnlijkheid voor de waarde zonder gegevens (in dit voorbeeld [Totaal aantal kinderen = 'nul', 'Drie' of een andere waarde]), begint op een zeer laag niet-nulniveau en neemt langzaam toe naarmate er meer gevallen worden toegevoegd.
VARIANTIE
Geeft de variantie van de waarden in het knooppunt aan. De variantie is per definitie altijd 0 voor discrete waarden. Als het model continue waarden ondersteunt, wordt de variantie berekend als σ (sigma), met behulp van de noemer n of het aantal gevallen in het knooppunt.
Er zijn twee definities die in het algemeen worden gebruikt om de standaarddeviatie (StDev) weer te geven. Eén methode voor het berekenen van standaarddeviatie houdt rekening met vooroordelen en een andere methode berekent standaarddeviatie zonder bias. Over het algemeen maken microsoft-algoritmen voor gegevensanalyse geen gebruik van vooroordelen bij het berekenen van standaarddeviatie.
De waarde die in de NODE_DISTRIBUTION tabel wordt weergegeven, is de werkelijke waarde voor alle discrete en discretized kenmerken en het gemiddelde voor doorlopende waarden.
VALUE_TYPE
Geeft het gegevenstype van de waarde of een kenmerk en het gebruik van de waarde aan. Bepaalde waardetypen zijn alleen van toepassing op bepaalde modeltypen:
| VALUE_TYPE ID | Waardelabel | Naam van waardetype |
|---|---|---|
| 1 | Vermist | Geeft aan dat de casegegevens geen waarde voor dit kenmerk bevatten. De ontbrekende status wordt afzonderlijk berekend van kenmerken met waarden. |
| 2 | Bestaand | Geeft aan dat de casegegevens een waarde voor dit kenmerk bevatten. |
| 3 | Doorlopend | Geeft aan dat de waarde van het kenmerk een doorlopende numerieke waarde is en daarom kan worden vertegenwoordigd door een gemiddelde, samen met variantie en standaarddeviatie. |
| 4 | Afzonderlijk | Hiermee wordt een waarde aangegeven, ofwel numeriek of tekst, die als discreet wordt behandeld. Opmerking Discrete waarden kunnen ook ontbreken; Ze worden echter anders verwerkt bij het maken van berekeningen. Zie Ontbrekende waarden (Analysis Services - Gegevensanalyse) voor meer informatie. |
| 5 | Gediskretiseerd | Geeft aan dat het kenmerk numerieke waarden bevat die gediscretiseerd zijn. De waarde is een opgemaakte tekenreeks die de discretization buckets beschrijft. |
| 6 | Bestaand | Geeft aan dat het kenmerk doorlopende numerieke waarden heeft en dat waarden zijn opgegeven in de gegevens, versus waarden die ontbreken of zijn afgeleid. |
| 7 | Coëfficiënt | Geeft een numerieke waarde aan die een coëfficiënt vertegenwoordigt. Een coëfficiënt is een waarde die wordt toegepast bij het berekenen van de waarde van de afhankelijke variabele. Als uw model bijvoorbeeld een regressieformule maakt die inkomsten voorspelt op basis van leeftijd, wordt de coëfficiënt gebruikt in de formule die leeftijd aan inkomsten relateert. |
| 8 | Scoreverbetering | Geeft een numerieke waarde aan die scorewinst vertegenwoordigt voor een kenmerk. |
| 9 | Statistics | Geeft een numerieke waarde aan die een statistiek vertegenwoordigt voor een regressor. |
| 10 | Unieke naam van knooppunt | Geeft aan dat de waarde niet als numeriek of tekenreeks moet worden verwerkt, maar als de unieke id van een ander inhoudsknooppunt in een model. In een neuraal netwerkmodel bieden de id's bijvoorbeeld aanwijzers van knooppunten in de uitvoerlaag naar knooppunten in de verborgen laag en van knooppunten in de verborgen laag naar knooppunten in de invoerlaag. |
| 11 | Onderscheppen | Geeft een numerieke waarde aan die het snijpunt in een regressieformule vertegenwoordigt. |
| 12 | Periodiciteit | Geeft aan dat de waarde een periodieke structuur in een model aangeeft. Alleen van toepassing op tijdreeksmodellen die een ARIMA-model bevatten. Opmerking: Het Microsoft Time Series-algoritme detecteert automatisch periodieke structuren op basis van de trainingsgegevens. Als gevolg hiervan kunnen de periodieke waarden in het uiteindelijke model periodieke waarden bevatten die u niet als parameter hebt opgegeven bij het maken van het model. |
| 13 | Autoregressieve volgorde | Geeft aan dat de waarde het aantal autoregressieve reeksen vertegenwoordigt. Is van toepassing op tijdreeksmodellen die gebruikmaken van het ARIMA-algoritme. |
| 14 | Volgorde van zwevend gemiddelde | Vertegenwoordigt een waarde die het aantal zwevende gemiddelden in een reeks vertegenwoordigt. Is van toepassing op tijdreeksmodellen die gebruikmaken van het ARIMA-algoritme. |
| 15 | Verschilvolgorde | Geeft aan dat de waarde een waarde vertegenwoordigt die aangeeft hoe vaak de reeks is gedifferentieerd. Is van toepassing op tijdreeksmodellen die gebruikmaken van het ARIMA-algoritme. |
| 16 | Booleaan | Vertegenwoordigt een Booleaanse type. |
| 17 | Other | Vertegenwoordigt een aangepaste waarde die is gedefinieerd door het algoritme. |
| 18 | Vooraf samengestelde tekenreeks | Vertegenwoordigt een aangepaste waarde die het algoritme als een tekenreeks weergeeft. Er is geen opmaak toegepast door het objectmodel. |
De waardetypen worden afgeleid van de opsomming ADMOMD.NET. Zie Microsoft.AnalysisServices.AdomdServer.MiningValueType voor meer informatie.
Knooppuntscore
De betekenis van de knooppuntscore verschilt afhankelijk van het modeltype en kan ook specifiek zijn voor het knooppunttype. Zie Mining Model Content by Algorithm Type voor informatie over hoe NODE_SCORE wordt berekend voor elk model en knooppunttype.
Kans op knooppunten en marginale waarschijnlijkheid
De rijset van het modelschema van de mijnbouw bevat de kolommen NODE_PROBABILITY en MARGINAL_PROBABILITY voor alle modeltypen. Deze kolommen bevatten alleen waarden in knooppunten waar een waarschijnlijkheidswaarde zinvol is. Het hoofdknooppunt van een model bevat bijvoorbeeld nooit een waarschijnlijkheidsscore.
In die knooppunten die wel waarschijnlijkheidsscores bieden, vertegenwoordigen de knooppuntkans en marginale waarschijnlijkheden verschillende berekeningen.
Marginale waarschijnlijkheid is de kans om het knooppunt vanaf het bovenliggende knooppunt te bereiken.
Knoopkans is de kans dat het knooppunt vanuit de wortel wordt bereikt.
Kans op knooppunten is altijd kleiner dan of gelijk aan marginale waarschijnlijkheid.
Bijvoorbeeld, als de populatie van alle klanten in een beslissingsboom gelijk wordt gesplitst naar geslacht (en er geen waarden ontbreken), moet de kans op de kindknooppunten 0,5 zijn. Stel echter dat elk van de knooppunten voor geslacht gelijk wordt verdeeld over de inkomensniveaus: hoog, gemiddeld en laag. In dit geval moet de MARGINAL_PROBABILITY-score voor elk onderliggend knooppunt altijd .33 zijn, maar de NODE_PROBABILITY-waarde is het product van alle waarschijnlijkheden die tot dat knooppunt leiden, en zal daarom altijd minder zijn dan de MARGINAL_PROBABILITY-waarde.
| Niveau van knooppunt/kenmerk en waarde | Marginale waarschijnlijkheid | Kans op knooppunten |
|---|---|---|
| Modelroot Alle doelklanten |
1 | 1 |
| Doelgroep verdelen naar geslacht | .5 | .5 |
| Doelklanten verdeeld naar geslacht en opnieuw in drie soorten naar inkomen | .33 | .5 * .33 = .165 |
Knooppuntregel en marginale regel
De rijset van het mijnmodelschema bevat ook de kolommen NODE_RULE en MARGINAL_RULE voor alle modeltypen. Deze kolommen bevatten XML-fragmenten die kunnen worden gebruikt om een model te serialiseren of om een deel van de modelstructuur weer te geven. Deze kolommen zijn mogelijk leeg voor sommige knooppunten, als een waarde betekenisloos zou zijn.
Er worden twee soorten XML-regels opgegeven, vergelijkbaar met de twee soorten waarschijnlijkheidswaarden. Het XML-fragment in MARGINAL_RULE definieert het kenmerk en de waarde voor het huidige knooppunt, terwijl het XML-fragment in NODE_RULE het pad naar het huidige knooppunt vanuit de hoofdmap van het model beschrijft.
Inhoud van miningmodel per algoritmetype
Elk algoritme slaat verschillende soorten informatie op als onderdeel van het inhoudsschema. Het Microsoft Clustering-algoritme genereert bijvoorbeeld veel onderliggende knooppunten, die elk een mogelijk cluster vertegenwoordigen. Elk clusterknooppunt bevat regels die kenmerken beschrijven die worden gedeeld door items in het cluster. Het Microsoft Linear Regression-algoritme bevat daarentegen geen onderliggende knooppunten; In plaats daarvan bevat het bovenliggende knooppunt voor het model de vergelijking die de lineaire relatie beschrijft die is gedetecteerd door analyse.
De volgende tabel bevat koppelingen naar onderwerpen voor elk type algoritme.
Onderwerpen over modelinhoud: Leg de betekenis van elk knooppunttype voor elk algoritmetype uit en geef richtlijnen over welke knooppunten het meest van belang zijn in een bepaald modeltype.
Query's uitvoeren op onderwerpen: Geef voorbeelden van query's op basis van een bepaald modeltype en richtlijnen voor het interpreteren van de resultaten.
Hulpprogramma's voor het weergeven van miningmodelinhoud
Wanneer u door een model bladert of verkent in SQL Server Data Tools, kunt u de informatie bekijken in de Microsoft Generic Content Tree Viewer, die beschikbaar is in zowel SQL Server Data Tools als SQL Server Management Studio.
De Algemene Inhoudsviewer van Microsoft geeft de kolommen, regels, eigenschappen, kenmerken, knooppunten en andere inhoud van het model weer met behulp van dezelfde informatie die beschikbaar is in de rijenset van het inhoudsschema van het mijnbouwmodel. De rijset van het inhoudsschema is een algemeen framework voor het presenteren van gedetailleerde informatie over de inhoud van een gegevensanalysemodel. U kunt modelinhoud weergeven in elke client die hiërarchische rijensets ondersteunt. De viewer in SQL Server Data Tools geeft deze informatie weer in een HTML-tabelviewer die alle modellen in een consistente indeling vertegenwoordigt, zodat u gemakkelijker inzicht hebt in de structuur van de modellen die u maakt. Zie Bladeren in een model met behulp van de Algemene Inhoudsstructuurviewer van Microsoft voor meer informatie.
Tools voor het uitvoeren van query's op de inhoud van miningmodellen
Als u inhoud van het miningmodel wilt ophalen, moet u een query maken op basis van het gegevensanalysemodel.
De eenvoudigste manier om een inhoudsquery te maken, is door de volgende DMX-instructie uit te voeren in SQL Server Management Studio:
SELECT * FROM [<mining model name>].CONTENT
Zie Data Mining-query's voor meer informatie.
U kunt ook query's uitvoeren op de inhoud van het miningmodel met behulp van de rijensets van het gegevensanalyseschema. Een schemarijset is een standaardstructuur die clients gebruiken om informatie over mijnbouwstructuren en -modellen te ontdekken, bladeren en er query's op uit te voeren. U kunt query's uitvoeren op de schemarijsets met behulp van XMLA-, Transact-SQL- of DMX-instructies.
In SQL Server 2017 kunt u ook toegang krijgen tot de informatie in de rijensets van het gegevensanalyseschema door een verbinding te openen met het SQL Server Analysis Services-exemplaar en de systeemtabellen op te vragen. Zie Data Mining Schema Rowsets (SSA's) voor meer informatie.
Zie ook
Microsoft Generic Content Tree Viewer (Data Mining)
Algoritmen voor gegevensanalyse (Analysis Services - Gegevensanalyse)