Microsoft Logistic Regression Algorithm

Van toepassing op: SQL Server 2019 en eerder Analysis Services Azure Analysis Services Fabric/Power BI Premium

Belangrijk

Data mining werd verouderd verklaard in SQL Server 2017 Analysis Services en is nu stopgezet in SQL Server 2022 Analysis Services. Documentatie wordt niet bijgewerkt voor afgeschafte en stopgezette functies. Zie Analysis Services-compatibiliteit met eerdere versies voor meer informatie.

Logistieke regressie is een bekende statistische techniek die wordt gebruikt voor het modelleren van binaire resultaten.

Er zijn verschillende implementaties van logistieke regressie in statistiekenonderzoek, met behulp van verschillende leertechnieken. Het Microsoft Logistic Regression-algoritme is geïmplementeerd met behulp van een variatie van het Microsoft Neural Network-algoritme. Dit algoritme deelt veel van de kwaliteiten van neurale netwerken, maar is gemakkelijker te trainen.

Een voordeel van logistieke regressie is dat het algoritme zeer flexibel is, elk soort invoer neemt en verschillende analytische taken ondersteunt:

  • Gebruik demografische gegevens om voorspellingen te doen over resultaten, zoals risico's voor een bepaalde ziekte.

  • Verken en gewicht de factoren die bijdragen aan een resultaat. Zoek bijvoorbeeld naar de factoren die van invloed zijn op klanten om een herhalingsbezoek aan een winkel te maken.

  • Documenten, e-mail of andere objecten met veel kenmerken classificeren.

Example

Overweeg een groep mensen die vergelijkbare demografische informatie delen en producten kopen bij het bedrijf Adventure Works. Door de gegevens te modelleren die betrekking hebben op een specifiek resultaat, zoals de aankoop van een doelproduct, kunt u zien hoe de demografische informatie bijdraagt aan de waarschijnlijkheid van het kopen van het doelproduct.

Hoe het algoritme werkt

Logistieke regressie is een bekende statistische methode voor het bepalen van de bijdrage van meerdere factoren aan een paar resultaten. De Microsoft-implementatie maakt gebruik van een gewijzigd neuraal netwerk om de relaties tussen invoer en uitvoer te modelleren. Het effect van elke invoer op de uitvoer wordt gemeten en de verschillende invoerwaarden worden gewogen in het voltooide model. De naam van logistieke regressie komt voort uit het feit dat de gegevenscurve wordt gecomprimeerd met behulp van een logistieke transformatie, om het effect van extreme waarden te minimaliseren. Zie technische documentatie voor Microsoft Logistic Regression Algorithm voor meer informatie over de implementatie en het aanpassen van het algoritme.

Gegevens vereist voor logistieke regressiemodellen

Wanneer u gegevens voorbereidt voor gebruik bij het trainen van een logistiek regressiemodel, moet u de vereisten voor het specifieke algoritme begrijpen, inclusief hoeveel gegevens er nodig zijn en hoe de gegevens worden gebruikt.

De vereisten voor een logistiek regressiemodel zijn als volgt:

Eén sleutelkolom Elk model moet één numerieke kolom of tekstkolom bevatten die elke record uniek identificeert. Samengestelde sleutels zijn niet toegestaan.

Invoerkolommen Elk model moet ten minste één invoerkolom bevatten die de waarden bevat die worden gebruikt als factoren in analyse. U kunt zoveel invoerkolommen hebben als u wilt, maar afhankelijk van het aantal waarden in elke kolom, kan de toevoeging van extra kolommen de tijd die nodig is om het model te trainen, vergroten.

Ten minste één voorspelbare kolom Het model moet ten minste één voorspelbare kolom van elk gegevenstype bevatten, inclusief continue numerieke gegevens. De waarden van de voorspelbare kolom kunnen ook worden behandeld als invoer voor het model, of u kunt opgeven dat deze alleen wordt gebruikt voor voorspelling. Geneste tabellen zijn niet toegestaan voor voorspelbare kolommen, maar kunnen worden gebruikt als invoer.

Voor meer gedetailleerde informatie over de ondersteunde inhoudstypen en gegevenstypen voor logistieke regressiemodellen, zie de sectie Vereisten van de technische naslaginformatie van het Microsoft Logistic Regression Algorithm.

Een logistiek regressiemodel weergeven

Als u het model wilt verkennen, kunt u de Microsoft Neural Network Viewer of de Algemene Inhoudsstructuurviewer van Microsoft gebruiken.

Wanneer u het model bekijkt met behulp van de Microsoft Neural Network Viewer, ziet u in Analysis Services de factoren die bijdragen aan een bepaald resultaat, gerangschikt op hun belang. U kunt een kenmerk en waarden kiezen om te vergelijken. Zie voor meer informatie Bladeren in een model met behulp van de Microsoft Neural Network Viewer.

Als u meer wilt weten, kunt u door de modeldetails bladeren met behulp van de Algemene Inhoudsstructuurviewer van Microsoft. De modelinhoud voor een logistiek regressiemodel bevat een marginaal knooppunt met alle invoer die wordt gebruikt voor het model en subnetten voor de voorspelbare kenmerken. Zie Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining) voor meer informatie.

Voorspellingen maken

Nadat het model is getraind, kunt u query's maken op basis van de modelinhoud om de regressiecoëfficiënten en andere details op te halen, of u kunt het model gebruiken om voorspellingen te doen.

Opmerkingen

  • Biedt geen ondersteuning voor drillthrough. Dit komt doordat de structuur van knooppunten in het mijnbouwmodel niet noodzakelijkerwijs rechtstreeks overeenkomt met de onderliggende gegevens.

  • Biedt geen ondersteuning voor het maken van dimensies voor gegevensanalyse.

  • Ondersteunt het gebruik van OLAP-miningmodellen.

  • Biedt geen ondersteuning voor het gebruik van Predictive Model Markup Language (PMML) om mijnbouwmodellen te maken.

Zie ook

Mijnbouwnemingsmodelinhoud voor Logistische Regressiemodellen (Analysis Services - Gegevensmijnbouw)
Technische naslaginformatie over logistieke regressiealgoritmen van Microsoft
Voorbeelden van query's voor logistieke regressiemodellen