Skapa en relationell gruvstruktur

Gäller för: SQL Server 2019 och tidigare Analysis Services Azure Analysis Services Fabric/Power BI Premium

Viktigt!

Datautvinningen upphörde i SQL Server 2017 Analysis Services och upphörde nu i SQL Server 2022 Analysis Services. Dokumentationen uppdateras inte för inaktuella och utgångna funktioner. Mer information finns i Analysis Services bakåtkompatibilitet.

De flesta datautvinningsmodeller baseras på relationsdatakällor. Fördelarna med att skapa en relationsdatautvinningsmodell är att du kan montera ad hoc-data och träna och uppdatera en modell utan att skapa en kub.

En relationsutvinningsstruktur kan hämta data från olika källor. Rådata kan lagras i tabeller, filer eller relationsdatabassystem, så länge data kan definieras som en del av datakällans vy. Du bör till exempel använda en relationsutvinningsstruktur om dina data finns i Excel, ett SQL Server-informationslager eller SQL Server-rapporteringsdatabas eller i externa källor som nås via OLE DB- eller ODBC-leverantörerna.

Det här avsnittet innehåller en översikt över hur du använder guiden Datautvinning för att skapa en relationsutvinningsstruktur.

Requirements

Process för att skapa en relationsutvinningsstruktur

Så här väljer du datakällor

Så här anger du innehållstyp och datatyp

Varför och hur man skapar ett holdout-dataset

Varför och hur du aktiverar drillthrough

Kravspecifikation

Först måste du ha en befintlig datakälla. Du kan använda datakällans designer för att konfigurera en datakälla, om det inte redan finns någon. Mer information finns i Skapa en datakälla (SSAS Multidimensional).

Använd sedan guiden Datakällans vy för att sammanställa nödvändiga data i en enda datakällavy. Mer information om hur du kan välja, transformera, filtrera eller hantera data med datakällans vyer finns i Datakällans vyer i flerdimensionella modeller.

Översikt över process

Starta guiden Datautvinning genom att högerklicka på noden Gruvstrukturer i Solution Explorer och välja Lägg till ny gruvstruktur. Guiden vägleder dig genom följande steg för att skapa strukturen för en ny relationsutvinningsmodell:

  1. Välj definitionsmetod: Här väljer du en datakällatyp och väljer Från relationsdatabas eller informationslager.

  2. Skapa datautvinningsstrukturen: Avgör om du bara ska skapa en struktur eller en struktur med en gruvmodell.

    Du kan också välja en lämplig algoritm för din ursprungliga modell. Vägledning om vilken algoritm som är bäst för vissa uppgifter finns i Data Mining Algorithms (Analysis Services – Data Mining).

  3. Välj Datakällans vy: Välj en vy för datakällor som ska användas för att träna din modell. Datakällans vy kan också innehålla data som används för testning eller orelaterade data. Du får välja och välja vilka data som faktiskt används i strukturen och i modellen. Du kan också använda filter på data senare.

  4. Ange tabelltyper: Välj den tabell som innehåller de fall som används för analys. För vissa datauppsättningar, särskilt de som används för att skapa marknadskorgsmodeller, kan du även inkludera en relaterad tabell som ska användas som en kapslad tabell.

    För varje tabell måste du ange nyckeln så att algoritmen vet hur du identifierar en unik post och relaterade poster om du har lagt till en kapslad tabell.

    Mer information finns i Kolumner för gruvstruktur.

  5. Ange träningsdata: På den här sidan väljer du som ärendetabell, som är den tabell som innehåller de viktigaste data för analys.

    För vissa datauppsättningar, särskilt de som används för att skapa marknadskorgsmodeller, kan du även inkludera en relaterad tabell. Värdena i den kapslade tabellen hanteras som flera värden som alla är relaterade till en enskild rad (eller skiftläge) i huvudtabellen.

  6. Ange kolumninnehåll och datatyper: För varje kolumn som du använder i strukturen måste du välja både en datatyp och en innehållstyp.

    Guiden identifierar automatiskt möjliga datatyper, men du behöver inte använda den datatyp som rekommenderas av guiden. Även om dina data till exempel innehåller siffror kan de vara representativa för kategoriska data. Kolumner som du anger som nycklar tilldelas automatiskt rätt datatyp för den specifika modelltypen. Mer information finns i Mining Model Columns och Data Types (Data Mining).

    Den innehållstyp som du väljer för varje kolumn som du använder i modellen talar om för algoritmen hur data ska bearbetas.

    Du kan till exempel välja att diskretisera tal i stället för att använda kontinuerliga värden. Du kan också be algoritmen att automatiskt identifiera den bästa innehållstypen för kolumnen. Mer information finns i Innehållstyper (datautvinning).

  7. Skapa testuppsättning: På den här sidan kan du berätta för guiden hur mycket data som ska reserveras för användning vid testning av modellen. Om dina data stöder flera modeller är det en bra idé att skapa en holdout-datauppsättning så att alla modeller kan testas på samma data.

    Mer information finns i Testning och validering (datautvinning).

  8. Slutför guiden: På den här sidan ger du ett namn till den nya gruvstrukturen och den associerade gruvmodellen och sparar strukturen och modellen.

    Du kan också ange några viktiga alternativ, beroende på modelltyp. Du kan till exempel aktivera detaljanalysering av strukturen.

    I det här läget är gruvstrukturen och dess modell bara metadata. du måste bearbeta dem båda för att få resultat.

Så här väljer du relationsdata

Relationsutvinningsstrukturer kan baseras på alla data som är tillgängliga via en OLE DB-datakälla. Om källdata finns i flera tabeller använder du en datakällavy för att sammanställa de tabeller och kolumner som du behöver på ett och samma ställe.

Om tabellerna innehåller en-till-många-relationer, till exempel om du har flera inköpsposter för varje kund som du vill analysera, kan du lägga till båda tabellerna och sedan använda en tabell som huvudtabell och länka data på den många sidan av relationen som en inbäddad tabell.

Data i en gruvstruktur härleds från det som finns i den befintliga datakällans vy. Du kan ändra data efter behov i datakällans vy, lägga till relationer eller härledda kolumner som kanske inte finns i underliggande relationsdata. Du kan också skapa namngivna beräkningar eller aggregeringar i datakällans vy. De här funktionerna är mycket praktiska om du inte har kontroll över ordningen på data i datakällan, eller om du vill experimentera med olika sammansättningar av data för dina datautvinningsmodeller.

Du behöver inte använda alla tillgängliga data. du kan välja och välja vilka kolumner som ska ingå i gruvstrukturen. Alla modeller som baseras på den strukturen kan sedan använda dessa kolumner, eller så kan du flagga vissa kolumner som Ignorera för en viss modell. Du kan göra så att användare av en datautvinningsmodell kan öka detaljnivån från resultatet av gruvmodellen för att se ytterligare kolumner för gruvstruktur som inte ingick i själva gruvmodellen.

Så här anger du innehållstyp och datatyp

Datatypen är ungefär densamma som de datatyper som du anger i SQL Server eller andra programgränssnitt: datum och tider, antal av olika storlekar, booleska värden, text och andra diskreta data.

Innehållstyper är dock viktiga för datautvinning och påverkar resultatet av analysen. Innehållstypen talar om för algoritmen vad den ska göra med data: ska tal behandlas i kontinuerlig skala eller i intervall? Hur många potentiella värden finns det? Är varje värde distinkt? Om värdet är en nyckel, vilken typ av nyckel är det – anger det ett datum/tid-värde, en sekvens eller någon annan typ av nyckel?

Observera att valet av datatyp kan begränsa ditt val av innehållstyper. Du kan till exempel inte diskretisera värden som inte är numeriska. Om du inte kan se den innehållstyp som du vill använda kan du klicka på Tillbaka för att återgå till datatypssidan och prova en annan datatyp.

Du behöver inte oroa dig alltför mycket för att innehållstypen ska bli felaktig. Det är mycket enkelt att skapa en ny modell och ändra innehållstypen i modellen, så länge den nya innehållstypen stöds av datatypen som anges i gruvstrukturen. Det är också mycket vanligt att skapa flera modeller med olika innehållstyper, antingen som ett experiment eller för att uppfylla kraven för en annan algoritm.

Om dina data till exempel innehåller en inkomstkolumn kan du skapa två olika modeller när du använder Microsoft Decision Trees-algoritmen och konfigurera kolumnen växelvis som antingen kontinuerliga tal eller diskreta intervall. Men om du har lagt till en modell med hjälp av Microsoft Naïve Bayes-algoritmen, skulle du tvingas ändra kolumnen till endast diskreta värden eftersom den algoritmen inte stöder kontinuerliga värden.

Varför och hur du delar upp data i tränings- och testuppsättningar

I slutet av guiden måste du bestämma om du vill dela upp dina data i tränings- och testdatamängder. Möjligheten att etablera en slumpmässigt samplad del av data för testning är mycket praktisk, eftersom det säkerställer att en konsekvent uppsättning testdata är tillgänglig för användning med alla gruvmodeller som är associerade med den nya gruvstrukturen.

Varning

Observera att det här alternativet inte är tillgängligt för alla modelltyper. Om du till exempel skapar en prognosmodell kan du inte använda holdout eftersom tidsseriealgoritmen kräver att det inte finns några dataluckor. En lista över de modelltyper som stöder holdout-datauppsättningar finns i Tränings- och testningsdatauppsättningar.

Om du vill skapa den här holdout-datauppsättningen anger du procentandelen av de data som du vill använda för testning. Alla återstående data kommer att användas för träning. Du kan också ange ett maximalt antal fall som ska användas för testning eller ange ett startvärde för start av den slumpmässiga urvalsprocessen.

Definitionen av holdout-testuppsättningen lagras med gruvstrukturen, så att när du skapar en ny modell baserat på strukturen blir testdatauppsättningen tillgänglig för att bedöma modellens noggrannhet. Om du tar bort cacheminnet för gruvstrukturen tas även informationen om vilka fall som användes för träning och som användes för testning bort.

Varför och hur du aktiverar drillthrough-funktionen

Nästan i slutet av guiden har du möjlighet att aktivera visning av detaljerad information. Det är lätt att missa det här alternativet, men det är viktigt. Med drillthrough kan du visa källdata i gruvstrukturen genom att fråga ut gruvmodellen.

Varför är detta användbart? Anta att du visar resultatet av en klustringsmodell och vill se de kunder som har placerats i ett specifikt kluster. Genom att använda drillthrough kan du visa detaljer som kontaktuppgifter.

Varning

För att använda drillthrough måste du aktivera den när du skapar gruvstrukturen. Du kan aktivera visning av detaljerad information om modeller senare genom att ange en egenskap för modellen, men gruvstrukturer kräver att det här alternativet anges i början. Mer information finns i Drillthrough Queries (Data Mining).

Se även

Data Mining Designer
Guiden för Datautvinning (Analysis Services – Datautvinning)
Egenskaper för gruvmodell
Egenskaper för gruvstruktur och strukturkolumner
Uppgifter och instruktioner för gruvstruktur