Microsoft Association Algorithm

Van toepassing op: SQL Server 2019 en eerder Analysis Services Azure Analysis Services Fabric/Power BI Premium

Belangrijk

Data mining werd verouderd verklaard in SQL Server 2017 Analysis Services en is nu stopgezet in SQL Server 2022 Analysis Services. Documentatie wordt niet bijgewerkt voor afgeschafte en stopgezette functies. Zie Analysis Services-compatibiliteit met eerdere versies voor meer informatie.

Het Microsoft Association-algoritme is een algoritme dat vaak wordt gebruikt voor aanbevelingsengines. Een aanbevelingsengine raadt klanten aan op basis van artikelen die ze al hebben gekocht of waarin ze interesse hebben aangegeven. Het Microsoft Association-algoritme is ook handig voor marktmandanalyse.

Koppelingsmodellen zijn gebaseerd op gegevenssets die id's bevatten voor afzonderlijke gevallen en voor de items die de cases bevatten. Een groep items in een case wordt een itemset genoemd. Een koppelingsmodel bestaat uit een reeks itemsets en de regels die beschrijven hoe deze items in de gevallen worden gegroepeerd. De regels die door het algoritme worden geïdentificeerd, kunnen worden gebruikt om de waarschijnlijke toekomstige aankopen van een klant te voorspellen, op basis van de items die al bestaan in het winkelwagentje van de klant. In het volgende diagram ziet u een reeks regels in een itemset.

Een set regels voor een koppelingsmodel Een

Zoals in het diagram wordt geïllustreerd, kan het Microsoft Association-algoritme mogelijk veel regels in een gegevensset vinden. Het algoritme maakt gebruik van twee parameters, ondersteuning en waarschijnlijkheid, om de itemsets en regels te beschrijven die worden gegenereerd. Als X en Y bijvoorbeeld twee items vertegenwoordigen die zich in een winkelwagen kunnen bevinden, is de ondersteuningsparameter het aantal gevallen in de gegevensset die de combinatie van items, X en Y bevatten. Door de ondersteuningsparameter te gebruiken in combinatie met de door de gebruiker gedefinieerde parameters, MINIMUM_SUPPORT en MAXIMUM_SUPPORT, bepaalt het algoritme het aantal itemsets dat wordt gegenereerd. De waarschijnlijkheidsparameter, ook wel betrouwbaarheid genoemd, vertegenwoordigt het deel van de gevallen in de gegevensset die X bevat en die ook Y bevatten. Door de kansparameter in combinatie met de parameter MINIMUM_PROBABILITY te gebruiken, bepaalt het algoritme het aantal regels dat wordt gegenereerd.

Example

Het bedrijf Adventure Works Cycle ontwerpt de functionaliteit van de website opnieuw. Het doel van het herontwerp is om de verkoop van producten te verhogen. Omdat het bedrijf elke verkoop registreert in een transactionele database, kunnen ze het Microsoft Association-algoritme gebruiken om sets producten te identificeren die meestal samen worden gekocht. Vervolgens kunnen ze aanvullende items voorspellen waarin een klant mogelijk geïnteresseerd is, op basis van items die al in het winkelmandje van de klant staan.

Hoe het algoritme werkt

Het Microsoft Association-algoritme doorkruist een gegevensset om items te vinden die samen in een case worden weergegeven. Het algoritme groepeert vervolgens in itemsets eventuele gekoppelde items die minimaal voorkomen in het aantal gevallen dat is opgegeven door de parameter MINIMUM_SUPPORT. Een itemset kan bijvoorbeeld 'Mountain 200=Existing, Sport 100=Existing' zijn en kan een ondersteuning van 710 hebben. Het algoritme genereert vervolgens regels uit de itemsets. Deze regels worden gebruikt om de aanwezigheid van een item in de database te voorspellen, op basis van de aanwezigheid van andere specifieke items die het algoritme identificeert als belangrijk. Een regel kan bijvoorbeeld 'als Touring 1000=bestaand en Road bottle cage=bestaand, dan Water bottle=bestaand' zijn en een kans van 0,812 hebben. In dit voorbeeld identificeert het algoritme dat de aanwezigheid in de mand van de Touring 1000-band en de waterfleskooi voorspelt dat een waterfles waarschijnlijk ook in de mand zou staan.

Voor een gedetailleerdere uitleg van het algoritme, samen met een lijst met parameters voor het aanpassen van het gedrag van het algoritme en het beheren van de resultaten in het mijnbouwmodel, raadpleegt u technische naslaginformatie over het Microsoft Association Algorithm.

Vereiste gegevens voor koppelingsmodellen

Wanneer u gegevens voorbereidt voor gebruik in een koppelingsregelsmodel, moet u de vereisten voor het specifieke algoritme begrijpen, inclusief hoeveel gegevens er nodig zijn en hoe de gegevens worden gebruikt.

De vereisten voor een koppelingsregelsmodel zijn als volgt:

  • Eén sleutelkolom Elk model moet één numerieke kolom of tekstkolom bevatten die elke record uniek identificeert. samengestelde sleutels zijn niet toegestaan.

  • Eén voorspelbare kolom Een koppelingsmodel kan slechts één voorspelbare kolom hebben. Meestal is het de sleutelkolom van de geneste tabel, zoals het veld dat de gekochte producten vermeldt. De waarden moeten discreet of gediscretiseerd zijn.

  • Invoerkolommen . De invoerkolommen moeten discreet zijn. De invoergegevens voor een koppelingsmodel bevinden zich vaak in twee tabellen. Een tabel kan bijvoorbeeld klantgegevens bevatten terwijl een andere tabel klantaankopen bevat. U kunt deze gegevens invoeren in het model met behulp van een geneste tabel. Zie Geneste tabellen (Analysis Services - Data Mining) voor meer informatie over geneste tabellen.

Zie de sectie Vereisten van Microsoft Association Algorithm Technical Reference voor meer gedetailleerde informatie over de inhoudstypen en gegevenstypen die worden ondersteund voor koppelingsmodellen.

Een koppelingsmodel weergeven

Als u het model wilt verkennen, kunt u de Microsoft Association Viewer gebruiken. Wanneer u een koppelingsmodel bekijkt, geeft SQL Server Analysis Services de correlaties vanuit verschillende hoeken weer, zodat u beter inzicht krijgt in de relaties en regels die in de gegevens zijn gevonden. Het deelvenster Itemset in de viewer biedt een gedetailleerde uitsplitsing van de meest voorkomende combinaties of itemsets. Het deelvenster Regels bevat een lijst met regels die zijn gegeneraliseerd op basis van de gegevens, berekeningen van waarschijnlijkheid toevoegt en de regels rangschikt op relatief belang. Met de afhankelijkheidsnetwerkviewer kunt u visueel verkennen hoe afzonderlijke verschillende items zijn verbonden. Zie Bladeren in een model met behulp van de Microsoft-clusterviewer voor meer informatie.

Als u meer informatie wilt over een van de itemsets en regels, kunt u door het model bladeren in de Algemene Inhoudsstructuurviewer van Microsoft. De inhoud die voor het model is opgeslagen, bevat de ondersteuning voor elke itemset, een score voor elke regel en andere statistieken. Zie Mining Model Content for Association Models (Analysis Services - Data Mining) voor meer informatie.

Voorspellingen maken

Nadat het model is verwerkt, kunt u de regels en itemsets gebruiken om voorspellingen te doen. In een koppelingsmodel geeft een voorspelling aan welk item zich waarschijnlijk voordoet op basis van de aanwezigheid van het opgegeven item en kan de voorspelling informatie bevatten zoals de waarschijnlijkheid, de ondersteuning of het belang. Zie Voorbeelden van query's voor koppelingsmodellen voor voorbeelden van het maken van query's voor een koppelingsmodel.

Zie Data Mining-query's voor algemene informatie over het maken van een query voor een gegevensanalysemodel.

Performance

Het proces voor het maken van itemsets en het tellen van correlaties kan tijdrovend zijn. Hoewel het algoritme voor Microsoft Association Rules gebruikmaakt van optimalisatietechnieken om ruimte te besparen en de verwerking sneller te laten verlopen, moet u weten dat prestatieproblemen kunnen optreden onder voorwaarden zoals de volgende:

  • De gegevensset is groot met veel afzonderlijke items.

  • De minimale grootte van de itemset is te laag.

Als u de verwerkingstijd wilt minimaliseren en de complexiteit van de itemsets wilt verminderen, kunt u gerelateerde items groeperen op categorieën voordat u de gegevens analyseert.

Opmerkingen

  • Biedt geen ondersteuning voor het gebruik van Predictive Model Markup Language (PMML) om mijnbouwmodellen te maken.

  • Ondersteunt drillthrough.

  • Ondersteunt het gebruik van OLAP-miningmodellen.

  • Ondersteunt het maken van dimensies voor gegevensanalyse.

Zie ook

Algoritmen voor gegevensanalyse (Analysis Services - Gegevensanalyse)
Bladeren in een model met behulp van de Microsoft Association Rules Viewer
Minen van Modelinhoud voor Associatiemodellen (Analyseringsservices - Datamining)
Technische referentie voor Microsoft Association Algorithm
Voorbeelden van query's voor koppelingsmodellen