Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Si applica a:
SQL Server 2019 e versioni precedenti di Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Importante
Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato sospeso in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.
Un grafico di lift rappresenta graficamente il miglioramento che un modello di data mining fornisce rispetto a una ipotesi casuale, e misura la variazione in termini di punteggio di lift. Confrontando i punteggi di accuratezza per modelli diversi, è possibile determinare quale modello è migliore. È anche possibile determinare il punto in cui le stime del modello diventano meno utili. Ad esempio, esaminando il grafico di sollevamento, è possibile che una campagna promozionale sia efficace solo per il 30% dei clienti, usando tale cifra per limitare l'ambito della campagna.
In SQL Server Data Mining il grafico di accuratezza può confrontare l'accuratezza di più modelli con lo stesso attributo stimabile. È anche possibile valutare l'accuratezza della stima per un singolo risultato (un singolo valore dell'attributo stimabile) o per tutti i risultati (tutti i valori dell'attributo specificato).
Un grafico dei profitti è un tipo di grafico correlato che contiene le stesse informazioni di un grafico di sollevamento, ma visualizza anche l'aumento previsto del profitto associato all'uso di ogni modello.
Grafico di Lift
Può essere difficile comprendere i grafici di sollevamento in modo astratto. Pertanto, per illustrare l'uso degli strumenti del grafico di sollevamento e delle informazioni nel grafico, questa sezione presenta uno scenario in cui viene usato un grafico di sollevamento per stimare la risposta a una campagna di mailing mirata.
Il reparto marketing in questo scenario sa che un tasso di risposta del 10% è più o meno tipico delle campagne di mailing. Hanno un elenco di 10.000 potenziali clienti archiviati in una tabella nel database. In base alla frequenza di risposta tipica, normalmente potrebbero aspettarsi solo circa 1.000 clienti potenziali per rispondere. Tuttavia, il denaro preventivato per il progetto non è sufficiente per raggiungere tutti i 10.000 clienti nel database e vogliono migliorare il tasso di risposta. Si supponga che per questo scenario il budget consenta loro di inviare un annuncio a soli 5.000 clienti. Il reparto marketing ha due opzioni:
Selezionare in modo casuale 5.000 clienti come destinazione.
Usare un modello di data mining per indirizzare i 5.000 clienti che hanno maggiore probabilità di rispondere.
Usando un grafico di sollevamento, è possibile confrontare i risultati previsti di entrambe le opzioni. Ad esempio, se l'azienda ha selezionato in modo casuale 5.000 clienti, potrebbe aspettarsi di ricevere solo 500 risposte, in base alla frequenza di risposta tipica. Questo scenario è rappresentato dalla linea casuale nel grafico lift. Tuttavia, se il reparto marketing ha usato un modello di data mining per indirizzare la propria distribuzione, potrebbe aspettarsi un tasso di risposta migliore perché il modello identifica i clienti che hanno maggiore probabilità di rispondere. Se il modello fosse perfetto, creerebbe stime che non sono mai errate e l'azienda potrebbe aspettarsi di ricevere 1.000 risposte inviando il mailing solo ai 1.000 potenziali clienti consigliati dal modello. In questo scenario, la linea ideale nel grafico di sollevamento è rappresentata.
La realtà è che il modello di data mining è più probabile tra questi due estremi; tra una ipotesi casuale e una stima perfetta. Qualsiasi miglioramento rispetto alla supposizione casuale viene considerato un miglioramento.
Quando si crea un grafico di accuratezza, è possibile impostare come destinazione un valore specifico e misurare l'accuratezza solo per tale risultato oppure creare una valutazione generale del modello che misura l'accuratezza per tutti i risultati possibili. Queste selezioni influiscono sul grafico finale, come descritto nelle sezioni seguenti.
Grafico di accuratezza con valore di destinazione
Il grafico seguente illustra un grafico di sollevamento per il modello di Mailing Mirato che si crea nell'Esercitazione di Base su Data Mining. In questo grafico, l'attributo di destinazione è [Bike Buyer] e il valore di destinazione è 1, il che significa che si prevede che il cliente acquisterà una bicicletta. Il grafico di sollevamento mostra quindi il miglioramento fornito dal modello nell'identificare questi potenziali clienti.
Questo grafico contiene più modelli basati sugli stessi dati. Uno di questi modelli è stato personalizzato per i clienti specifici. È possibile personalizzare un modello aggiungendo filtri sui dati usati per eseguire il training della modalità. Questo filtro limita i casi usati sia nella formazione che nella valutazione ai clienti che hanno meno di 30 anni. Si osservi che un effetto del filtro è che il modello di base e il modello filtrato usano set di dati diversi e pertanto il numero di case usati per la valutazione nel grafico lift è diverso. Questo punto è importante da ricordare quando si interpretano i risultati della stima e altre statistiche.
L'asse x del grafico rappresenta la percentuale del set di dati di test usato per confrontare le stime. L'asse y del grafico rappresenta la percentuale di valori stimati.
La linea retta diagonale, mostrata qui in blu, viene visualizzata in ogni grafico. Rappresenta i risultati di un'ipotesi casuale ed è la linea di base rispetto alla quale valutare il lift. Per ogni modello aggiunto a un grafico di sollevamento, si ottengono due linee aggiuntive: una linea mostra i risultati ideali per il set di dati di training se fosse possibile creare un modello che prevedesse sempre perfettamente, e la seconda linea mostra il sollevamento effettivo o il miglioramento dei risultati per il modello.
In questo esempio, la linea ideale per il modello filtrato viene visualizzata in blu scuro e la linea per il sollevamento effettivo in giallo. È possibile indicare dal grafico che la linea ideale raggiunge il 40% circa, ovvero se si dispone di un modello perfetto, è possibile raggiungere il 100% dei clienti di destinazione inviando una mailing a solo 40% della popolazione totale. L'accuratezza effettiva per il modello filtrato quando si ha come destinazione il 40% della popolazione è compresa tra il 60 e il 70%, ovvero è possibile raggiungere il 60-70% dei clienti di destinazione inviando il mailing al 40% della popolazione totale dei clienti.
La Mining Legend contiene i valori effettivi in qualsiasi punto delle curve. È possibile modificare la posizione misurata facendo clic sulla barra grigia verticale e spostandola. Nel grafico, la linea grigia è stata spostata al 30%, perché questo è il punto in cui i modelli filtrati e non filtrati sembrano essere più efficaci e dopo questo punto l'incremento dell'efficacia diminuisce.
La Mining Legend contiene anche punteggi e statistiche che aiutano a interpretare il grafico. Questi risultati rappresentano l'accuratezza del modello in corrispondenza della linea grigia, che in questo scenario è posizionata per includere il 30% dei test case complessivi.
| Serie e modello | Punteggio | Popolazione di destinazione | Stimare la probabilità |
|---|---|---|---|
| Invio mirato per tutti | 0.71 | 47.40% | 61.38% |
| Mailing mirato per persone sotto i 30 anni | 0.85 | 51.81% | 46.62% |
| Modello di ipotesi casuale | 31.00% | ||
| Modello ideale per: Mailing mirato a tutti | 62.48% | ||
| Modello ideale per: Mailing mirato sotto i 30 anni | 65.28% |
Interpretazione dei risultati
Da questi risultati è possibile osservare che, quando misurato al 30% di tutti i casi, il modello generale [Targeted mailing all] può prevedere il comportamento d'acquisto di biciclette del 47,40% della popolazione di destinazione. In altre parole, se hai inviato una mailing mirata solo al 30 percento dei clienti nel tuo database, potresti raggiungere leggermente meno della metà del tuo pubblico target. Se è stato usato il modello filtrato, è possibile ottenere risultati leggermente migliori e raggiungere circa il 51% dei clienti di destinazione.
Il valore della probabilità Predict rappresenta la soglia necessaria per includere un cliente tra i casi di "probabilità di acquisto". Per ogni caso, il modello stima l'accuratezza di ogni stima e archivia tale valore, che è possibile usare per escludere o per indirizzare i clienti. Ad esempio, per identificare i clienti del modello di base che sono probabilmente acquirenti, è consigliabile usare una query per recuperare i casi con una probabilità di previsione di almeno il 61%. Per ottenere i clienti mirati dal modello filtrato, è necessario creare una query che recupera i casi che soddisfano tutti i criteri: età e un valore di PredictProbability di almeno 46%.
È interessante confrontare i modelli. Il modello filtrato sembra acquisire più clienti potenziali, ma quando si ha come destinazione i clienti con un punteggio di probabilità di stima del 46%, si ha anche una probabilità del 53% di inviare una mailing a qualcuno che non acquisterà una bicicletta. Pertanto, se si decide quale modello è migliore, è consigliabile bilanciare la maggiore precisione e le dimensioni di destinazione più piccole del modello filtrato rispetto alla selettività del modello di base.
Il valore di Score consente di confrontare i modelli calcolando l'efficacia del modello in una popolazione normalizzata. Un punteggio più alto è migliore, quindi in questo caso si potrebbe decidere che la destinazione dei clienti inferiori a 30 è la strategia più efficace, nonostante la probabilità di stima più bassa.
Come viene calcolato il punteggio?
Il punteggio viene calcolato come punteggio geometrico medio di tutti i punti che costituiscono un grafico a dispersione in cui l'asse x contiene i valori effettivi, l'asse y contiene il valore stimato e ogni punto ha una probabilità associata.
Il significato statistico di qualsiasi singolo punteggio è l'incremento predittivo per il modello misurato in quel contesto. La media di tutti i punti costituisce il punteggio per il modello.
Grafico di sollevamento per il modello senza valore di destinazione
Se non si specifica lo stato della colonna stimabile, si crea il tipo di grafico illustrato nel diagramma seguente. Questo grafico mostra le prestazioni del modello per tutti gli stati dell'attributo stimabile. Ad esempio, questo grafico indica in che modo il modello stima entrambi i clienti che probabilmente acquistano una bicicletta e quelli che non hanno probabilità di acquistare una bicicletta.
L'asse x è uguale a quello del grafico con la colonna stimabile specificata, ma l'asse y rappresenta ora la percentuale di stime corrette. Pertanto, la linea ideale è la linea diagonale, che mostra che al 50% dei dati, il modello prevede correttamente 50% dei case, il massimo che può essere previsto.
È possibile fare clic nel grafico per spostare la barra grigia verticale, e la legenda di data mining visualizza la percentuale complessiva dei casi e la percentuale dei casi stimati correttamente. Ad esempio, se si posiziona la barra grigia del dispositivo di scorrimento al 50%, il Mining Legend Visualizza i seguenti punteggi di accuratezza. Queste figure si basano sul modello ad albero TM_Decision creato nell'esercitazione di base sul data mining.
| Serie, modello | Punteggio | Popolazione di destinazione | Stimare la probabilità |
|---|---|---|---|
| TM_Albero Decisionale | 0.77 | 40.50% | 72.91% |
| Modello ideale | 50% |
Questa tabella indica che, al 50% della popolazione, il modello creato correttamente prevede il 40% dei casi. È possibile considerare questo modello ragionevolmente accurato. Tenere tuttavia presente che questo particolare modello stima tutti i valori dell'attributo stimabile. Pertanto, il modello potrebbe essere accurato nella stima che il 90% dei clienti non acquisterà una bicicletta.
Restrizioni sui grafici di lift
I grafici di sollevamento richiedono che l'attributo stimabile sia un valore discreto. In altre parole, non è possibile usare grafici lift per valutare l'accuratezza dei modelli che prevedono valori numerici continui.
L'accuratezza della stima per tutti i valori discreti dell'attributo stimabile viene visualizzata in una singola riga. Se si desidera visualizzare le linee di accuratezza delle previsioni per qualsiasi singolo valore dell'attributo stimabile, è necessario creare una curva di sollevamento separata per ogni valore di destinazione.
È possibile aggiungere più modelli a un grafico del sollevamento, purché tutti i modelli abbiano lo stesso attributo prevedibile. I modelli che non condividono l'attributo non saranno disponibili per la selezione nella scheda Input .
Non è possibile visualizzare i modelli di serie temporali in un grafico di sollevamento o in un grafico dei profitti. Una pratica comune per misurare l'accuratezza delle stime delle serie temporali consiste nel riservare una parte di dati cronologici e confrontarli con le stime. Per altre informazioni, vedere Algoritmo Microsoft Time Series.