Microsoft Clustering Algorithm

Van toepassing op: SQL Server 2019 en eerder Analysis Services Azure Analysis Services Fabric/Power BI Premium

Belangrijk

Data mining werd verouderd verklaard in SQL Server 2017 Analysis Services en is nu stopgezet in SQL Server 2022 Analysis Services. Documentatie wordt niet bijgewerkt voor afgeschafte en stopgezette functies. Zie Analysis Services-compatibiliteit met eerdere versies voor meer informatie.

Het Microsoft Clustering-algoritme is een segmentatie - of clustering-algoritme dat doorloopt over gevallen in een gegevensset om ze te groeperen in clusters die vergelijkbare kenmerken bevatten. Deze groeperingen zijn handig voor het verkennen van gegevens, het identificeren van afwijkingen in de gegevens en het maken van voorspellingen.

Clusteringmodellen identificeren relaties in een gegevensset die u mogelijk niet logisch afgeleid hebt door middel van informele observatie. U kunt bijvoorbeeld gemakkelijk raden dat mensen die met de fiets naar hun werk gaan, meestal niet op een lange afstand wonen van waar ze werken. Het algoritme kan echter andere kenmerken vinden over fietsende forenzen die niet zo duidelijk zijn. In het volgende diagram vertegenwoordigt cluster A gegevens over personen die vaak naar het werk rijden, terwijl cluster B gegevens vertegenwoordigt over personen die vaak fietsen naar het werk rijden.

Clusterpatroon van pendeltendensen

Het clustering-algoritme verschilt van andere algoritmen voor gegevensanalyse, zoals het algoritme Microsoft Decision Trees, omdat u geen voorspelbare kolom hoeft aan te wijzen om een clusteringmodel te kunnen bouwen. Het clustering-algoritme traint het model strikt van de relaties in de gegevens en van de clusters die door het algoritme worden geïdentificeerd.

Example

Overweeg een groep mensen die vergelijkbare demografische informatie delen en vergelijkbare producten kopen bij het bedrijf Adventure Works. Deze groep personen vertegenwoordigt een cluster met gegevens. Er kunnen verschillende dergelijke clusters bestaan in een database. Door de kolommen te observeren waaruit een cluster bestaat, kunt u beter zien hoe records in een gegevensset met elkaar zijn gerelateerd.

Hoe het algoritme werkt

Het Microsoft Clustering-algoritme identificeert eerst relaties in een gegevensset en genereert een reeks clusters op basis van deze relaties. Een spreidingsplot is een handige manier om visueel aan te geven hoe het algoritme gegevens groepeert, zoals wordt weergegeven in het volgende diagram. Het spreidingsplot vertegenwoordigt alle gevallen in de gegevensset en elke case is een punt in de grafiek. De clusters groeperen punten in de grafiek en illustreren de relaties die het algoritme identificeert.

Spreidingsplot van gevallen in een gegevensset

Nadat u de clusters hebt gedefinieerd, berekent het algoritme hoe goed de clusters groeperingen van de punten vertegenwoordigen en probeert vervolgens de groeperingen opnieuw te definiëren om clusters te maken die de gegevens beter vertegenwoordigen. Het algoritme doorloopt dit proces totdat het de resultaten niet meer kan verbeteren door de clusters opnieuw te definiëren.

U kunt de manier waarop het algoritme werkt aanpassen door een clustertechniek op te geven, het maximum aantal clusters te beperken of de hoeveelheid ondersteuning te wijzigen die nodig is om een cluster te maken. Zie technische naslaginformatie over Microsoft Clustering Algorithm voor meer informatie. dit algoritme bevat twee populaire clusteringmethoden: K-means-clustering en de methode Expectation Maximization.

Vereiste gegevens voor clusteringmodellen

Wanneer u gegevens voorbereidt voor gebruik bij het trainen van een clusteringmodel, moet u de vereisten voor het specifieke algoritme begrijpen, inclusief hoeveel gegevens er nodig zijn en hoe de gegevens worden gebruikt.

De vereisten voor een clusteringmodel zijn als volgt:

  • Eén sleutelkolom Elk model moet één numerieke kolom of tekstkolom bevatten die elke record uniek identificeert. Samengestelde sleutels zijn niet toegestaan.

  • Invoerkolommen Elk model moet ten minste één invoerkolom bevatten die de waarden bevat die worden gebruikt om de clusters te bouwen. U kunt zoveel invoerkolommen hebben als u wilt, maar afhankelijk van het aantal waarden in elke kolom, kan de toevoeging van extra kolommen de tijd die nodig is om het model te trainen, vergroten.

  • Optionele voorspelbare kolom Het algoritme heeft geen voorspelbare kolom nodig om het model te bouwen, maar u kunt een voorspelbare kolom van vrijwel elk gegevenstype toevoegen. De waarden van de voorspelbare kolom kunnen worden behandeld als invoer voor het clusteringmodel of u kunt opgeven dat deze alleen voor voorspelling wordt gebruikt. Als u bijvoorbeeld klantinkomens wilt voorspellen door te clusteren op demografische gegevens, zoals regio of leeftijd, geeft u inkomsten op als PredictOnly en voegt u alle andere kolommen, zoals regio of leeftijd, toe als invoer.

Zie de sectie Vereisten van de Technische Referentie voor het Microsoft Clustering-algoritme voor meer gedetailleerde informatie over de inhoudstypen en gegevenstypen die worden ondersteund voor clusteringmodellen.

Een clusteringmodel weergeven

Als u het model wilt verkennen, kunt u de Microsoft Cluster Viewer gebruiken. Wanneer u een clusteringmodel bekijkt, ziet u in SQL Server Analysis Services de clusters in een diagram waarin de relaties tussen clusters worden weergegeven en wordt ook een gedetailleerd profiel van elk cluster weergegeven, een lijst met de kenmerken die elk cluster onderscheiden van de andere en de kenmerken van de volledige set met trainingsgegevens. Zie Bladeren in een model met behulp van de Microsoft-clusterviewer voor meer informatie.

Als u meer details wilt weten, kunt u door het model bladeren in de Algemene Inhoudsstructuurviewer van Microsoft. De inhoud die voor het model is opgeslagen, bevat de verdeling voor alle waarden in elk knooppunt, de waarschijnlijkheid van elk cluster en andere informatie. Zie Mining Model Content for Clustering Models (Analysis Services - Data Mining) voor meer informatie.

Voorspellingen maken

Nadat het model is getraind, worden de resultaten opgeslagen als een set patronen, die u kunt verkennen of gebruiken om voorspellingen te doen.

U kunt query's maken om voorspellingen te retourneren over of nieuwe gegevens in de gedetecteerde clusters passen of om beschrijvende statistieken over de clusters te verkrijgen.

Zie Data Mining-query's voor meer informatie over het maken van query's op basis van een gegevensanalysemodel. Zie Voorbeelden van clustermodelquery's voor voorbeelden van het gebruik van query's met een clusteringmodel.

Opmerkingen

  • Ondersteunt het gebruik van Predictive Model Markup Language (PMML) om mijnbouwmodellen te maken.

  • Ondersteunt drillthrough.

  • Ondersteunt het gebruik van OLAP-miningmodellen en het maken van dimensies voor gegevensanalyse.

Zie ook

Algoritmen voor gegevensanalyse (Analysis Services - Gegevensanalyse)
Technisch naslagwerk van Microsoft Clustering Algorithm
Inhoud van mijnbouwmodellen voor clusteringmodellen (Analysis Services - Gegevensmijnbouw)
Voorbeelden van clusteringmodelquery's