Analysemodelinhoud voor Decision Tree-modellen (Analysis Services - Gegevensanalyse)

Van toepassing op: SQL Server 2019 en eerder Analysis Services Azure Analysis Services Fabric/Power BI Premium

Belangrijk

Data mining werd verouderd verklaard in SQL Server 2017 Analysis Services en is nu stopgezet in SQL Server 2022 Analysis Services. Documentatie wordt niet bijgewerkt voor afgeschafte en stopgezette functies. Zie Analysis Services-compatibiliteit met eerdere versies voor meer informatie.

In dit onderwerp wordt de inhoud van het mijnbouwmodel beschreven die specifiek is voor modellen die gebruikmaken van het Algoritme Microsoft Decision Trees. Zie Mining Model Content (Analysis Services - Data Mining) voor een algemene uitleg van de analysemodelinhoud voor alle modeltypen. Het is belangrijk te onthouden dat het algoritme Microsoft Decision Trees een hybride algoritme is dat modellen met zeer verschillende functies kan maken: een beslissingsstructuur kan koppelingen, regels of zelfs lineaire regressie vertegenwoordigen. De structuur van de boom is in wezen hetzelfde, maar hoe u de informatie interpreteert, is afhankelijk van het doel waarvoor u het model hebt gemaakt.

Inzicht in de structuur van een decision trees-model

Een beslisboommodel heeft één ouderknooppunt dat het model en de bijbehorende metagegevens vertegenwoordigt. Onder het bovenliggende knooppunt bevinden zich onafhankelijke bomen die de voorspelbare kenmerken vertegenwoordigen die u selecteert. Als u bijvoorbeeld uw beslissingsstructuurmodel instelt om te voorspellen of klanten iets gaan kopen en invoer voor geslacht en inkomen bieden, maakt het model één boomstructuur voor het aankoopkenmerk, met veel vertakkingen die delen op voorwaarden met betrekking tot geslacht en inkomen.

Als u echter een afzonderlijk voorspelbaar kenmerk toevoegt voor deelname aan een klantbeloningsprogramma, maakt het algoritme twee afzonderlijke structuren onder het bovenliggende knooppunt. De ene boomstructuur bevat de analyse voor aankoop en een andere structuur bevat de analyse voor het programma voor klantbeloningen. Als u het algoritme Decision Trees gebruikt om een koppelingsmodel te maken, maakt het algoritme een afzonderlijke structuur voor elk product dat wordt voorspeld en bevat de structuur alle andere productcombinaties die bijdragen aan de selectie van het doelkenmerk.

Opmerking

Als uw model meerdere bomen bevat, kunt u slechts één structuur tegelijk bekijken in De Microsoft Tree Viewer. In de algemene inhoudsstructuurviewer worden echter alle bomen in hetzelfde model tegelijkertijd weergegeven.

structuur van modelinhoud voor beslissingsboom

De structuur voor elk voorspelbaar kenmerk bevat informatie die beschrijft hoe de invoerkolommen die u kiest van invloed zijn op het resultaat van dat bepaalde voorspelbare kenmerk. Elke structuur wordt geleid door een knooppunt (NODE_TYPE = 9) dat het voorspelbare kenmerk bevat, gevolgd door een reeks knooppunten (NODE_TYPE = 10) die de invoerkenmerken vertegenwoordigen. Een attribuut komt overeen met ofwel een kolom op gevalniveau of met waarden van geneste tabelkolommen, die doorgaans de waarden in de Sleutelkolom van de geneste tabel zijn.

Binnen- en bladknooppunten vertegenwoordigen gesplitste omstandigheden. Een boom kan meerdere keren op hetzelfde kenmerk worden gesplitst. Het TM_DecisionTree model kan bijvoorbeeld worden gesplitst op [Jaarlijks inkomen] en [Aantal kinderen], en vervolgens opnieuw splitsen op [Jaarlijks inkomen] verderop in de boomstructuur.

Het algoritme Microsoft Decision Trees kan ook lineaire regressies in alle of een deel van de structuur bevatten. Als het kenmerk dat u modelleert een doorlopend numeriek gegevenstype is, kan het model een regressiestructuurknooppunt (NODE_TYPE = 25) maken waar de relatie tussen de kenmerken lineair kan worden gemodelleerd. In dit geval bevat het knooppunt een regressieformule.

Als het voorspelbare kenmerk echter discrete waarden heeft of als numerieke waarden zijn gebucket of discretiseerd, maakt het model altijd een classificatiestructuur (NODE_TYPE =2). Een classificatiestructuur kan meerdere vertakkingen of binnenstructuurknooppunten (NODE_TYPE =3) hebben voor elke waarde van het kenmerk. De splitsing is echter niet noodzakelijkerwijs voor elke waarde van het kenmerk.

Het algoritme Microsoft Decision Trees staat geen continue gegevenstypen toe als invoer; Als kolommen daarom een doorlopend numeriek gegevenstype hebben, worden de waarden discretized. Het algoritme voert een eigen discretisatie uit op het punt van een splitsing voor alle doorlopende kenmerken.

Opmerking

SQL Server Analysis Services kiest automatisch een methode voor het bucketen van doorlopende kenmerken; U kunt echter bepalen hoe continue waarden in de invoer worden discretized door het inhoudstype van de kolom met de mijnbouwstructuur in te stellen op Discretized en vervolgens de DiscretizationBucketCount of DiscretizationMethod eigenschap in te stellen.

beste

Modelinhoud voor een Decision Trees-model

Deze sectie bevat alleen details en voorbeelden voor die kolommen in de inhoud van het mijnbouwmodel die van bijzonder belang zijn voor beslissingsstructuren. Zie Mining Model Content (Analysis Services - Data Mining) voor meer informatie over kolommen voor algemeen gebruik in de schemarijset en uitleg over terminologie van miningmodellen.

MODEL_CATALOG
Naam van de database waarin het model is opgeslagen.

MODEL_NAME
Naam van het model.

ATTRIBUTE_NAME
Naam van het kenmerk dat overeenkomt met dit knooppunt.

NODE_NAME
Altijd hetzelfde als NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Een unieke id voor het knooppunt in het model. Deze waarde kan niet worden gewijzigd.

Voor beslissingsstructuurmodellen volgen de unieke namen de volgende conventie, die niet van toepassing is op alle algoritmen:

De kindknooppunten van een bepaald knooppunt hebben allemaal hetzelfde hexadecimale voorvoegsel, gevolgd door een ander hexadecimaal getal dat de volgorde van het kindknooppunt binnen de ouder vertegenwoordigt. U kunt de voorvoegsels gebruiken om een pad af te stellen.

NODE_TYPE
In beslissingsstructuurmodellen worden de volgende typen knooppunten gemaakt:

Knooppunttype Description
1 (model) Hoofdknooppunt voor model.
2 (boom) Bovenliggend knooppunt voor classificatiebomen in het model. Met het label "All".
3 (Interieur) Hoofd van de binnentak, gevonden in een classificatiestructuur of regressieboom.
4 (distributie) Leaf-knooppunt, gevonden in een classificatiestructuur of regressiestructuur.
25 (regressieboom) Ouder knooppunt voor regressieboom binnen het model. Gelabeld als 'All'.

NODE_CAPTION
Een beschrijvende naam voor weergavedoeleinden.

Wanneer u een model maakt, wordt de waarde van NODE_UNIQUE_NAME automatisch gebruikt als bijschrift. U kunt echter de waarde voor NODE_CAPTION wijzigen om de weergavenaam voor het cluster bij te werken, programmatisch of met behulp van de viewer. Het bijschrift wordt automatisch gegenereerd door het model. De inhoud van het bijschrift is afhankelijk van het type model en het knooppunttype.

In een beslissingsstructuurmodel hebben de NODE_CAPTION en de NODE_DESCRIPTION verschillende gegevens, afhankelijk van het niveau in de structuur. Zie Knooppuntbijschrift en knooppuntbeschrijving voor meer informatie en voorbeelden.

CHILDREN_CARDINALITY
Een schatting van het aantal onderliggende items dat het knooppunt heeft.

Hoofdknooppunt geeft het aantal voorspelbare kenmerken aan dat is gemodelleerd. Er wordt een structuur gemaakt voor elk voorspelbaar kenmerk.

Structuurknooppunt Het knooppunt Alle voor elke structuur geeft aan hoeveel waarden zijn gebruikt voor het doelkenmerk.

  • Als het doelkenmerk discreet is, is de waarde gelijk aan het aantal afzonderlijke waarden plus 1 voor de ontbrekende status.

  • Als het voorspelbare kenmerk doorlopend is, geeft de waarde aan hoeveel buckets zijn gebruikt om het doorlopende kenmerk te modelleren.

Leaf-knooppunten Altijd 0.

PARENT_UNIQUE_NAME
De unieke naam van het bovenliggende knooppunt. NULL wordt geretourneerd voor knooppunten op hoofdniveau.

NODE_DESCRIPTION
Een beschrijving van het knooppunt.

In een beslissingsstructuurmodel hebben de NODE_CAPTION en de NODE_DESCRIPTION verschillende gegevens, afhankelijk van het niveau in de structuur.

Zie Knooppuntbijschrift en knooppuntbeschrijving voor meer informatie en voorbeelden.

NODE_RULE
Een XML-beschrijving van de regel die het pad vanaf het directe bovenliggende knooppunt naar het huidige knooppunt beschrijft.

Zie Node Rule and Marginal Rule (Knooppuntregel en marginale regel) voor meer informatie en voorbeelden.

MARGINAL_RULE
Een XML-beschrijving van de regel die het pad van het bovenliggende modelknooppunt naar het huidige knooppunt beschrijft.

Zie Node Rule and Marginal Rule (Knooppuntregel en Marginale regel) voor meer informatie.

NODE_PROBABILITY
De waarschijnlijkheid die aan dit knooppunt is gekoppeld.

Zie Kans voor meer informatie.

MARGINAL_PROBABILITY
De kans dat het knooppunt van het bovenliggende knooppunt wordt bereikt.

Zie Kans voor meer informatie.

NODE_DISTRIBUTION
Een tabel die het waarschijnlijkheids histogram van het knooppunt bevat. De informatie in deze tabel verschilt, afhankelijk van of het voorspelbare kenmerk een continue of discrete variabele is.

Hoofdknooppunt model Deze tabel is leeg.

(Alle) knooppunt Bevat een samenvatting voor het model als geheel.

Interieurknooppunt Bevat geaggregeerde statistieken voor de bladknooppunten.

Leaf-knooppunt Bevat ondersteuning en waarschijnlijkheid voor de voorspelde resultaten op basis van alle voorwaarden in het pad dat leidt naar het huidige leaf-knooppunt.

Regressieknooppunt Bevat regressieformule die de relatie tussen de invoer en het voorspelbare kenmerk vertegenwoordigt.

Zie Knooppuntdistributie voor discrete kenmerken en knooppuntdistributie voor doorlopende kenmerken voor meer informatie.

NODE_SUPPORT
Het aantal gevallen dat dit knooppunt ondersteunt.

MSOLAP_MODEL_COLUMN
Geeft de kolom aan die het voorspelbare kenmerk bevat.

MSOLAP_NODE_SCORE
Geeft een score weer die is gekoppeld aan het knooppunt. Zie Node Score voor meer informatie.

MSOLAP_NODE_SHORT_CAPTION
Een label dat wordt gebruikt voor weergavedoeleinden.

Opmerkingen

Een beslissingsstructurenmodel heeft geen afzonderlijk knooppunt waarin statistieken voor het hele model worden opgeslagen, in tegenstelling tot het marginale knooppunt voor statistieken in een Naive Bayes- of neuraal netwerkmodel. In plaats daarvan maakt het model een afzonderlijke structuur voor elk voorspelbaar kenmerk, met een (Alle) knooppunt boven aan de structuur. Elke boom is onafhankelijk van de andere. Als uw model slechts één voorspelbaar kenmerk bevat, is er slechts één boom en dus slechts één (All) knooppunt.

Elke boomstructuur die een uitvoerkenmerk vertegenwoordigt, wordt verder onderverdeeld in binnentakkingen (NODE_TYPE = 3) die splitsingen vertegenwoordigen. Elk van deze bomen bevat statistieken over de distributie van het doelkenmerk. Daarnaast bevat elk leaf-knooppunt (NODE_TYPE = 4) statistieken die invoerkenmerken en hun waarden beschrijven, samen met het aantal gevallen dat ondersteuning biedt voor elk kenmerk-waardepaar. Daarom kunt u in elke vertakking van een beslissingsstructuur de waarschijnlijkheden of de verdeling van gegevens eenvoudig bekijken zonder query's uit te voeren op de brongegevens. Elk niveau van de structuur vertegenwoordigt noodzakelijkerwijs de som van de directe onderliggende knooppunten.

Zie Voorbeelden van query's voor decision trees-modellen voor voorbeelden van het ophalen van deze statistieken.

beste

Voorbeeld van beslissingsstructuur

Als u wilt weten hoe een beslissingsstructuur werkt, kunt u een voorbeeld overwegen, zoals het scenario van de adventureworks-fietskoper. Ervan uitgaande dat het voorspelbare kenmerk klantaankopen is, probeert het algoritme beslissingsstructuren één kolom met gegevens te vinden, onder alle invoer die u hebt opgegeven, waarmee de klanten die waarschijnlijk een fiets kopen, het meest effectief worden gedetecteerd en degenen die waarschijnlijk geen fiets kopen. Het model kan bijvoorbeeld merken dat Leeftijd de beste indicator van aankoopgedrag is. Met name dat de klanten ouder dan 30 jaar zeer waarschijnlijk een fiets kopen en dat alle andere klanten waarschijnlijk geen aankoop doen. In dit scenario maakt het model een splitsing op het kenmerk Leeftijd. Dat betekent dat de boom wordt verdeeld in twee vertakkingen, één met klanten ouder dan 30 jaar en de andere met klanten jonger dan 30. De nieuwe takken worden weergegeven in de modelstructuur als twee nieuwe binnenbomen (NODE_TYPE = 3).

Voor elke vertakking blijft het model zoeken naar aanvullende attributen voor het onderscheiden van klanten. Als er onvoldoende bewijs is in de gegevens om door te gaan met het maken van subgroepen van klanten, stopt het model met het bouwen van de structuur. Het model stopt ook met het bouwen van de structuur wanneer het aantal gevallen in het knooppunt te klein is om door te gaan, ongeacht hoe goed de splitsing is, of als de waarde null is of ontbreekt. Door de groei van de boom vroeg te stoppen, voorkomt u dat het model te dicht bij één bepaalde set gegevens traint.

Elk knooppunt van de binnenstructuur bevat bladknooppunten die een uitsplitsing bieden van de resultaten op basis van de huidige classificatieresultaten. U hebt bijvoorbeeld een binnenknooppunt dat leeftijd >= 30 en geslacht = mannelijk vertegenwoordigt. Dit knooppunt voor deze groep toont hoeveel klanten in deze categorie iets hebben gekocht of niets hebben gekocht. De classificatie kan bijvoorbeeld de volgende boomstructuursplitsingen bevatten.

Binnenboom Split
Leeftijd >= 30 Leeftijd >= 30 en geslacht = Mannelijk
Leeftijd >= 30 en geslacht = Vrouw
Leeftijd < 30 Leeftijd < 30 en Geslacht = Mannelijk
Leeftijd < 30 en Geslacht = Vrouw

Wanneer u een beslissingsstructuurmodel gebruikt voor voorspelling, neemt het model de kenmerken die u aan het model opgeeft als argumenten en volgt het pad van de kenmerken omlaag door de structuur. Over het algemeen gaan alle voorspellingen naar een blad en worden de binnenste knooppunten alleen gebruikt voor classificatie.

Een leaf-knooppunt heeft altijd een NODE_TYPE van 4 (distributie) en bevat een histogram dat de waarschijnlijkheid aangeeft van elk resultaat (aankoop of niet kopen) op basis van de kenmerken die u opgeeft. Als u bijvoorbeeld vraagt om een voorspelling voor een nieuwe klant die ouder is dan 60, zoekt het model het bijbehorende knooppunt op (leeftijd > 30 en geslacht = mannelijk) en retourneert u vervolgens de waarschijnlijkheid voor het resultaat dat u opgeeft. Deze waarschijnlijkheden worden opgeslagen in de NODE_DISTRIBUTION tabel voor het knooppunt.

Als het voorspelbare kenmerk een doorlopend getal is, probeert het algoritme een regressieformule te maken die de relatie tussen het voorspelbare kenmerk en de invoer modelleert.

beste

Bijschrift van de knoop en knoopbeschrijving

In een beslissingsstructuurmodel bevatten het bijschrift en de beschrijving van het knooppunt vergelijkbare informatie. De beschrijving van het knooppunt is echter completer en bevat meer informatie wanneer u dichter bij de leaf-knooppunten komt. Zowel het bijschrift van het knooppunt als de beschrijving van het knooppunt zijn gelokaliseerde tekenreeksen.

Rubriek Description
Geeft het kenmerk weer dat dat specifieke knooppunt onderscheidt ten opzichte van het bovenliggende knooppunt. Het bijschrift van het knooppunt definieert een subsegment van de populatie op grond van de splitsingsvoorwaarde. Als de splitsing bijvoorbeeld op [Leeftijd] stond en het een splitsing in drie richtingen was, zijn de bijschriften van het knooppunt voor de drie onderliggende knooppunten mogelijk "[Leeftijd] < 40", "40 <= [Leeftijd] < 50", "[Leeftijd] >= 50".
NODE_DESCRIPTION Bevat een volledige lijst met kenmerken die onderscheid maken tussen dat knooppunt en andere knooppunten, te beginnen met het bovenliggende modelknooppunt. Bijvoorbeeld Productnaam = Apple en Color = Rood.

beste

Knooppuntregel en marginale regel

De kolommen NODE_RULE en MARGINAL_RULE bevatten dezelfde informatie als de kolommen NODE_CAPTION en NODE_DESCRIPTION, maar vertegenwoordigen de informatie als XML-fragmenten. De knooppuntregel is een XML-versie van het volledige pad, terwijl de marginale regel de meest recente splitsing aangeeft.

Het kenmerk dat wordt vertegenwoordigd door het XML-fragment, kan eenvoudig of complex zijn. Een eenvoudig kenmerk bevat de naam van de modelkolom en de waarde van het kenmerk. Als de modelkolom een geneste tabel bevat, wordt het geneste tabelkenmerk weergegeven als samenvoeging van de tabelnaam, de sleutelwaarde en het kenmerk.

Opmerking

SQL Server SQL Server Analysis Services ondersteunt versie 2.0 van de PMML-standaard, met extensies ter ondersteuning van het gebruik van geneste tabellen. Als uw gegevens geneste tabellen bevatten en u een PMML-versie van het model genereert, worden alle elementen in het model met de predicaten gemarkeerd als een extensie.

beste

Knooppuntdistributie voor discrete kenmerken

In een beslissingsstructuurmodel bevat de tabel NODE_DISTRIBUTION nuttige statistieken. Het type statistieken is echter afhankelijk van het feit of de structuur een discreet of doorlopend kenmerk voorspelt. In deze sectie wordt de betekenis van de distributiestatistieken van knooppunten voor discrete kenmerken beschreven.

Kenmerknaam en kenmerkwaarde

In een classificatiestructuur bevat de kenmerknaam altijd de naam van de voorspelbare kolom. Deze waarde geeft aan wat de boom voorspelt. Omdat één structuur altijd één voorspelbaar kenmerk vertegenwoordigt, wordt deze waarde herhaald in de structuur.

Voor een discreet gegevenstype geeft het veld kenmerkwaarde de mogelijke waarden van de voorspelbare kolom weer, plus de ontbrekende waarde.

Support

De ondersteuningswaarde voor elk knooppunt geeft aan hoeveel gevallen er in dit knooppunt zijn opgenomen. Op het niveau (Alle) ziet u het volledige aantal gevallen dat is gebruikt om het model te trainen. Voor elke splitsing in de structuur is de ondersteuningswaarde het aantal gevallen dat is gegroepeerd in dat knooppunt van de structuur. De som van de cases in de bladknooppunten is noodzakelijkerwijs gelijk aan het aantal cases in het bovenliggende knooppunt van de boom.

Voor knooppunten die doorlopende kenmerken vertegenwoordigen, kan de aanwezigheid van null-waarden in de gegevens leiden tot een aantal contraintieve resultaten. Als er bijvoorbeeld m-gevallen zijn, wordt een gemiddelde waarde berekend als som (alle gevallen)/n, waarbij n een getal kleiner is dan m en m-n het aantal gevallen met ontbrekende waarden aangeeft. Ondersteuning wordt ook weergegeven als n.

Waarschijnlijkheid

De waarschijnlijkheid die aan elk knooppunt is gekoppeld, geeft de kans aan dat elk geval in de hele gegevensset in dit specifieke knooppunt terecht zou komen. Waarschijnlijkheidsscores worden zowel berekend voor de structuur als geheel en voor de onmiddellijke splitsing.

In de volgende tabel ziet u bijvoorbeeld een heel eenvoudig model, met 100 cases.

Binnenboom Aanvragen Leaf-knooppunt Aanvragen Kans ten opzichte van bovenliggend knooppunt Kans ten opzichte van het bovenste knooppunt
Leeftijd >= 30 60 Leeftijd >= 30 en geslacht = Mannelijk 50 50/60 = .83 50/100 = .5
Leeftijd >= 30 en geslacht = Vrouw 10 10/60 = .16 10/100 = .10
Leeftijd < 30 40 Leeftijd < 30 en Geslacht = Mannelijk 30 30/40 = .75 30/100 = .30
Leeftijd < 30 en Geslacht = Vrouw 10 10/40 = .25 10/100 = .10

In alle modellen wordt een kleine aanpassing aangebracht om rekening te houden met mogelijke ontbrekende waarden. Voor doorlopende kenmerken wordt elke waarde of elk bereik met waarden weergegeven als een toestand (bijvoorbeeld Leeftijd <30, Leeftijd = 30 en Leeftijd >30) en worden de waarschijnlijkheden als volgt berekend: status bestaat (waarde = 1), een andere staat bestaat (waarde = 0), de status ontbreekt. Zie Ontbrekende waarden (Analysis Services - Data Mining) voor meer informatie over hoe waarschijnlijkheden worden aangepast om ontbrekende waarden weer te geven.

De waarschijnlijkheden voor elk knooppunt worden als volgt berekend vanuit de verdeling:

Kans = (ondersteuning voor status + ondersteuning voor eerdere status) / (knooppuntondersteuning plus de vorige knooppuntondersteuning)

SQL Server Analysis Services maakt gebruik van waarschijnlijkheden voor elk knooppunt om de opgeslagen waarschijnlijkheid te vergelijken met de voorgaande waarschijnlijkheid om te bepalen of het pad van het ouderknooppunt naar het kindknooppunt een sterke gevolgtrekking aangeeft.

Bij het maken van voorspellingen moet de waarschijnlijkheid van de verdeling worden verdeeld met de waarschijnlijkheid van het knooppunt om de waarschijnlijkheden te vereffenen. Als een splitsing in de boom bijvoorbeeld gevallen scheidt met een verhouding van 9000/1000, is de structuur erg onevenwichtig. Als gevolg hiervan mag een voorspelling die afkomstig is van de kleine vertakking niet hetzelfde gewicht dragen als een voorspelling die afkomstig is van een vertakking met veel gevallen.

Verschil

Variantie is een meting van de wijze waarop spreidingswaarden in een steekproef zijn, op basis van een verwachte verdeling. Voor discrete waarden is de variantie 0 per definitie.

Zie De inhoud van het miningmodel voor lineaire regressiemodellen (Analysis Services - Data Mining) voor informatie over hoe afwijking wordt berekend voor continue waarden.

Waardetype

De kolom waardetype bevat informatie over de betekenis van de numerieke waarde die is opgegeven in de andere kolommen in de NODE_DISTRIBUTION tabel. U kunt het waardetype in query's gebruiken om specifieke rijen op te halen uit de geneste tabellen. Zie Voorbeelden van Decision Trees Model-query's voor voorbeelden.

Van de typen in de MiningValueType opsomming worden de volgende gebruikt in classificatiestructuren.

Waardetype Description
1 (ontbreekt) Geeft een telling, waarschijnlijkheid of andere statistiek aan die betrekking heeft op ontbrekende waarden.
4 (Discreet) Duidt op een telling, waarschijnlijkheid of andere statistiek met betrekking tot een discrete of gediscretiseerde waarde.

Als het model een doorlopend voorspelbaar kenmerk bevat, kan de structuur ook waardetypen bevatten die uniek zijn voor regressieformules. Zie Mining Model Content for Linear Regression Models (Analysis Services - Data Mining) voor een lijst met de waardetypen die worden gebruikt in regressiestructuren.

Knooppuntscore

De knooppuntscore vertegenwoordigt iets andere informatie op elk niveau van de structuur. Over het algemeen is de score een numerieke waarde die aangeeft hoe goed een splitsing is bereikt door te splitsen op basis van de voorwaarde. De waarde wordt weergegeven als een dubbele waarde, waarbij een hogere waarde beter is.

Het modelknooppunt en alle leaf-knooppunten hebben per definitie een knooppuntscore van 0.

Voor het knooppunt (Alle) dat de bovenkant van elke structuur vertegenwoordigt, bevat de kolom MSOLAP_NODE_SCORE de beste splitsscore in de hele structuur.

Voor alle andere knooppunten in de structuur (behalve leaf-knooppunten) vertegenwoordigt de score voor elk knooppunt de beste splitsscore voor het huidige knooppunt, minus de splitsscore voor het bovenliggende knooppunt. Normaal gesproken moet de splitsscore voor een ouderknooppunt altijd beter zijn dan de splitsscore bij elk van zijn kindknopen. Dat komt doordat een beslissingsstructurenmodel idealiter eerst splitst op de belangrijkste kenmerken.

Opmerking

Als u een beslissingsstructurenmodel maakt dat zowel doorlopende als discrete voorspelbare kenmerken bevat, ziet u totaal verschillende scores in de (alle) knooppunten die elk structuurtype vertegenwoordigen. Elk model moet onafhankelijk worden beschouwd en de methoden die worden gebruikt voor scoreregressie, verschillen volledig van de methoden die worden gebruikt voor scoreclassificatie. De waarden van de knooppuntscore kunnen niet worden vergeleken.

beste

Regressieknooppunten binnen een Decision Tree-model

Als een beslissingsstructurenmodel een voorspelbaar kenmerk bevat met continue numerieke gegevens, zoekt het Microsoft Decision Trees-algoritme naar gebieden in de gegevens waarin de relatie tussen de voorspelde status en de invoervariabelen lineair is. Als het algoritme een lineaire relatie kan vinden, wordt er een speciale structuur (NODE_TYPE = 25) gemaakt die een lineaire regressie vertegenwoordigt. Deze regressiestructuurknooppunten zijn complexer dan knooppunten die discrete waarden vertegenwoordigen.

Over het algemeen wijst een regressie de wijzigingen in de doorlopende afhankelijke (voorspelbare variabele) toe als functie van wijzigingen in de invoer. Als de afhankelijke variabele continue invoer heeft en de relatie tussen de invoer en de voorspelde waarde stabiel genoeg is om te worden berekend als een lijndiagram, bevat het knooppunt voor de regressie een formule.

Als de relatie tussen de invoer en de voorspelde waarde echter niet-lineair is, wordt er in plaats daarvan een splitsing gemaakt, net als een standaard beslissingsstructuur. Stel dat A het voorspelbare kenmerk is en B en C de invoer zijn, waarbij C een doorlopend waardetype is. Als de relatie tussen A en C redelijk stabiel is in delen van de gegevens, maar instabiel in andere, maakt het algoritme splitsingen om de verschillende gebieden van de gegevens weer te geven.

Gesplitste voorwaarde Resultaat in knooppunt
als n < 5 Relatie kan worden uitgedrukt als vergelijking 1
als n tussen 5 en 10 Geen vergelijking
als n > 10 Relatie kan worden uitgedrukt als vergelijking 2

Zie De inhoud van het miningmodel voor lineaire regressiemodellen (Analysis Services - Data Mining) voor meer informatie over regressieknooppunten.

Zie ook

Analysemodelinhoud (Analysis Services - Gegevensanalyse)
Gegevensanalysemodelviewers
Query's voor gegevensanalyse
Microsoft Decision Trees Algorithm