Che cos'è l'apprendimento per rinforzo?

Importante

A partire dal 20 settembre 2023 non sarà possibile creare nuove risorse Personalizer. Il servizio Personalizer sarà ritirato il 1° ottobre 2026. È consigliabile eseguire la migrazione all'open-source microsoft/learning-loop.

L'apprendimento per rinforzo è un approccio all'apprendimento automatico che apprende i comportamenti ottenendo feedback dall'uso.

L'apprendimento per rinforzo funziona da:

Fornire un'opportunità o un grado di libertà per applicare un comportamento, ad esempio prendere decisioni o scelte.
Fornire informazioni contestuali sull'ambiente e sulle scelte.
Fornire commenti e suggerimenti sul modo in cui il comportamento raggiunge un determinato obiettivo.

Sebbene esistano molti sottotipi e stili di apprendimento per rinforzo, ecco come funziona il concetto in Personalizer:

L'applicazione offre l'opportunità di visualizzare una parte di contenuto da un elenco di alternative.
L'applicazione fornisce informazioni su ogni alternativa e sul contesto dell'utente.
L'applicazione calcola un punteggio di ricompensa.

A differenza di alcuni approcci all'apprendimento per rinforzo, Personalizer non richiede un ambiente di simulazione per funzionare. I suoi algoritmi di apprendimento sono progettati per reagire a un mondo esterno (rispetto a controllarlo) e imparare da ogni punto dati con una comprensione che è un'opportunità unica che costa tempo e denaro da creare e che ci sia un rimpianto diverso da zero (perdita di possibili ricompense) se si verificano prestazioni non ottimali.

Quali tipi di algoritmi di apprendimento per rinforzo utilizza Personalizer?

Nella versione corrente di Personalizza esperienze si usano i banditi contestuali, un approccio all'apprendimento per rinforzo che si basa sul prendere decisioni o effettuare scelte tra azioni distinte in uno specifico contesto.

La memoria decisionale, il modello sottoposto a training per acquisire la decisione migliore possibile, in base a un contesto, usa un set di modelli lineari. Questi hanno ripetutamente mostrato risultati aziendali e sono un approccio collaudato, parzialmente perché possono imparare dal mondo reale molto rapidamente senza bisogno di training multipasso, e parzialmente perché possono integrare modelli di apprendimento supervisionato e modelli di rete neurale profonda.

L'allocazione del traffico di esplorazione/azione migliore viene eseguita in modo casuale dopo la percentuale impostata per l'esplorazione e l'algoritmo predefinito per l'esplorazione è epsilon-greedy.

La storia dei contextual bandits

John Langford ha coniato il nome Contextual Bandits (Langford e Zhang [2007]) per descrivere un subset trattabile di apprendimento per rinforzo e ha lavorato su una mezza dozzina di documenti migliorando la nostra comprensione di come imparare in questo paradigma:

Beygelzimer et al. [2011]
Dudík et al. [2011a, b]
Agarwal et al. [2014, 2012]
Beygelzimer e Langford [2009]
Li et al. [2010]

John ha inoltre fornito diverse esercitazioni in precedenza su argomenti come Joint Prediction (ICML 2015), Contextual Bandit Theory (NIPS 2013), Active Learning (ICML 2009) e Sample Complexity Bounds (ICML 2003)

Quali framework di apprendimento automatico utilizza Personalizer?

Personalizer attualmente usa Vowpal Wabbit come base per l'apprendimento automatico. Questo framework assicura la velocità effettiva massima e la latenza minima per l'esecuzione di classifiche di personalizzazione e per il training del modello con tutti gli eventi.

Riferimenti

Passaggi successivi

Valutazione offline

Last updated on 2026-05-06