Innehåll i gruvmodell för klustermodeller (Analysis Services – Data Mining)

Gäller för: SQL Server 2019 och tidigare Analysis Services Azure Analysis Services Fabric/Power BI Premium

Viktigt!

Datautvinningen upphörde i SQL Server 2017 Analysis Services och upphörde nu i SQL Server 2022 Analysis Services. Dokumentationen uppdateras inte för inaktuella och utgångna funktioner. Mer information finns i Analysis Services bakåtkompatibilitet.

I det här avsnittet beskrivs innehåll för gruvmodell som är specifikt för modeller som använder Microsoft Clustering-algoritmen. En allmän förklaring av innehåll i gruvmodell för alla modelltyper finns i Mining Model Content (Analysis Services – Data Mining).

Förstå strukturen för en klustringsmodell

En klustringsmodell har en enkel struktur. Varje modell har en enda överordnad nod som representerar modellen och dess metadata, och varje överordnad nod har en platt lista över kluster (NODE_TYPE = 5). Den här organisationen visas i följande bild.

struktur av modellinnehåll för klustring

Varje underordnad nod representerar ett enda kluster och innehåller detaljerad statistik över attributen hos fallen i klustret. Detta inkluderar antalet fall i klustret och fördelningen av värden som skiljer klustret från andra kluster.

Anmärkning

Du behöver inte iterera genom noderna för att få ett antal eller en beskrivning av klustren. modellens överordnade nod räknas också och visar en lista över klustren.

Den överordnade noden innehåller användbar statistik som beskriver den faktiska fördelningen av alla träningsfall. Den här statistiken finns i den kapslade tabellkolumnen NODE_DISTRIBUTION. I följande tabell visas till exempel flera rader från tabellen NODE_DISTRIBUTION som beskriver fördelningen av kunddemografi för klustringsmodellen, TM_Clustering, som du skapar i självstudiekursen grundläggande datautvinning:

ATTRIBUTNAMN ATTRIBUTE_VALUE STÖD SANNOLIKHET VARIANS VALUE_TYPE
Ålder Försvunnen 0 0 0 1 (saknas)
Ålder 44.9016152716593 12939 1 125.663453102554 3 (kontinuerlig)
Kön Försvunnen 0 0 0 1 (saknas)
Kön F 6350 0.490764355823479 0 4 (diskret)
Kön M 6589 0.509235644176521 0 4 (diskret)

Från dessa resultat kan du se att det fanns 12939 fall som användes för att bygga modellen, att förhållandet mellan män och kvinnor var cirka 50-50 och att medelåldern var 44. Den beskrivande statistiken varierar beroende på om attributet som rapporteras är en kontinuerlig numerisk datatyp, till exempel ålder eller en diskret värdetyp, till exempel kön. Medelvärdet ochvariansen för statistiska mått beräknas för kontinuerliga datatyper, medan sannolikhet och stöd beräknas för diskreta datatyper.

Anmärkning

Variansen representerar den totala variansen för klustret. När värdet för varians är litet anger det att de flesta värden i kolumnen låg ganska nära medelvärdet. För att få fram standardavvikelsen beräknar du kvadratroten av variansen.

Observera att för vart och ett av attributen finns en värdetyp som saknas som anger hur många fall som inte hade några data för attributet. Saknade data kan vara betydande och påverkar beräkningar på olika sätt, beroende på datatyp. Mer information finns i Saknade värden (Analysis Services – Data Mining).

Modellinnehåll för en klustringsmodell

Det här avsnittet innehåller endast information och exempel för de kolumner i innehållet i gruvmodellen som är relevanta för klustringsmodeller.

Information om de allmänna kolumnerna i schemaraduppsättningen, till exempel MODEL_CATALOG och MODEL_NAME, finns i Mining Model Content (Analysis Services – Data Mining).

MODEL_KATALOG
Namnet på databasen där modellen lagras.

MODEL_NAME
Namnet på modellen.

ATTRIBUT_NAMN
Alltid tomt i klustringsmodeller eftersom det inte finns något förutsägbart attribut i läget.

NODE_NAME
Alltid samma som NODE_UNIQUE_NAME.

NOD_UNIKT_NAMN
En unik identifierare för noden i modellen. Det går inte att ändra det här värdet.

NODE_TYPE
En klustermodell matar ut följande nodtyper:

Nod-ID och namn Description
1 (modell) Rotnod för modell.
5 (kluster) Innehåller ett antal fall i klustret, egenskaperna för ärenden i klustret och statistik som beskriver värdena i klustret.

NODE_BESKRIVNING
Ett vänligt namn i visningssyfte. När du skapar en modell används värdet för NODE_UNIQUE_NAME automatiskt som undertext. Du kan dock ändra värdet för NODE_CAPTION för att uppdatera visningsnamnet för klustret, antingen programmatiskt eller med hjälp av visningsprogrammet.

Anmärkning

När du bearbetar modellen igen skrivs alla namnändringar över av de nya värdena. Du kan inte spara namn i modellen eller spåra ändringar i klustermedlemskap mellan olika versioner av en modell.

BARN_KARDINALITET
En uppskattning av hur många barn noden har.

Överordnad nod Anger antalet kluster i modellen.

Klusternoder Alltid 0.

FÖRÄLDERS_UNIKA_NAMN
Det unika namnet på nodens överordnade.

Överordnad nod Alltid NULL

Klusternoder Vanligtvis 000.

NOD_BESKRIVNING
En beskrivning av noden.

Överordnad nod Alltid (Alla).

Klusternoder En kommaavgränsad lista över de primära attributen som skiljer klustret från andra kluster.

NODE_RULE
Används inte för klustringsmodeller.

MARGINAL_RULE
Används inte för klustringsmodeller.

NOD_SANNOLIKHET
Sannolikheten som är associerad med den här noden. Överordnad nod Alltid 1.

Klusternoder Sannolikheten representerar den sammansatta sannolikheten för attributen, med vissa justeringar beroende på vilken algoritm som används för att skapa klustringsmodellen.

MARGINAL_SANNOLIKHET
Sannolikheten att nå noden från den överordnade noden. I en klustringsmodell är den marginella sannolikheten alltid densamma som nodsannolikheten.

NODE_DISTRIBUTION
En tabell som innehåller nodens sannolikhets histogram.

Överordnad nod Se introduktionen till det här avsnittet.

Klusternoder Representerar fördelningen av attribut och värden för fall som ingår i det här klustret.

NODE_SUPPORT
Antalet fall som stöder den här noden. Överordnad nod Anger antalet träningsfall för hela modellen.

Klusternoder Anger klustrets storlek som ett antal fall.

Observera Om modellen använder K-Means-klustring kan varje ärende bara tillhöra ett kluster. Men om modellen använder EM-klustring kan varje ärende tillhöra olika kluster och ärendet tilldelas ett viktat avstånd för varje kluster som det tillhör. För EM-modeller är därför summan av stödet för ett enskilt kluster större än stödet för den övergripande modellen.

MSOLAP_MODEL_COLUMN
Används inte för klustringsmodeller.

MSOLAP_NODE_SCORE
Visar en poäng som är associerad med noden.

Överordnad nod BIC-poängen (Bayesianskt informationskriterium) för klustringsmodellen.

Klusternoder Alltid 0.

MSOLAP_NODE_SHORT_CAPTION
En etikett som används i visningssyfte. Du kan inte ändra den här undertexten.

Överordnad nod Typ av modell: Klustermodell

Klusternoder Namnet på klustret. Exempel: Kluster 1.

Anmärkningar

SQL Server Analysis Services innehåller flera metoder för att skapa en klustermodell. Om du inte vet vilken metod som användes för att skapa den modell som du arbetar med kan du hämta modellmetadata programmatiskt, med hjälp av en ADOMD-klient eller AMO, eller genom att köra frågor mot datautvinningsschemaraduppsättningen. Mer information finns i Fråga efter parametrarna som används för att skapa en gruvmodell.

Anmärkning

Modellens struktur och innehåll förblir desamma, oavsett vilken klustringsmetod eller vilka parametrar du använder.

Se även

Innehåll för gruvmodell (Analysis Services – datautvinning)
Visare för datautvinningsmodeller
Microsoft-klusteralgoritm
Frågor om datautvinning