Terminologia di Personalizer

Importante

A partire dal 20 settembre 2023 non sarà possibile creare nuove risorse di Personalizer. Il servizio Personalizer sarà ritirato il 1° ottobre 2026. Consigliamo di migrare al microsoft/learning-loop open-source.

Personalizer usa la terminologia dell'apprendimento per rinforzo. Questi termini vengono usati nel portale di Azure e nelle API.

Terminologia concettuale

  • Ciclo di apprendimento: è possibile creare una risorsa di Personalizer, chiamata ciclo di apprendimento, per ogni parte dell'applicazione che può beneficiare della personalizzazione. Nel caso di più esperienze da personalizzare, creare un ciclo per ognuna.

  • Modello: un modello di Personalizer acquisisce tutti i dati appresi sul comportamento dell'utente, ottenendo i dati di addestramento dalla combinazione degli argomenti inviati alle chiamate a Rank e Reward e un comportamento di training determinato dai criteri di apprendimento.

  • Modalità online: Comportamento di apprendimento predefinito per Personalizer in cui il ciclo di apprendimento utilizza l'apprendimento automatico per costruire il modello che prevede l'azione principale per il contenuto.

  • Modalità apprendista: comportamento di apprendimento che consente di facilitare l'avvio di un modello Personalizer per eseguire il training senza compromettere i risultati e le azioni delle applicazioni.

Comportamento di apprendimento

  • Modalità online: restituire l'azione migliore. Il tuo modello risponderà alle chiamate di Classifica con l'azione migliore e userà le chiamate di Ricompensa per apprendere e migliorare le selezioni nel tempo.
  • Modalità apprendista: imparare come apprendista. Il modello apprenderà osservando il comportamento del sistema esistente. Le chiamate di classificazione restituiranno sempre l'azione predefinita dell'applicazione (baseline).

Configurazione del Personalizer

Personalizer viene configurato dal portale Azure.

  • Ricompense: configurare i valori predefiniti per il tempo di attesa della ricompensa, la ricompensa predefinita e i criteri di aggregazione delle ricompense.

  • Esplorazione: configurare la percentuale di chiamate di Rank da usare per l'esplorazione

  • Frequenza di aggiornamento del modello frequenza con cui viene ripetuto il training del modello.

  • Conservazione dei dati: numero di giorni di dati da archiviare. Questa impostazione può influire sulle valutazioni offline, usate per migliorare il ciclo di apprendimento.

Usare le API Classificazione e Ricompensa

  • Classificazione: in base alle azioni con caratteristiche e alle caratteristiche del contesto usare l'esplorazione o lo sfruttamento per restituire l'azione principale (elemento del contenuto).

    • Azioni: le azioni sono elementi di contenuto, come prodotti o promozioni, tra cui scegliere. Personalizer sceglie l'azione principale (ID dell'azione di ricompensa restituita) da mostrare agli utenti tramite l'API Rank.

    • Contesto: per ottenere una classificazione più accurata, fornire informazioni sul contesto, ad esempio:

      • L'utente.
      • Il dispositivo su cui si trovano.
      • Ora corrente.
      • Altri dati sulla situazione corrente.
      • Dati cronologici sull'utente o sul contesto.

      Le specifiche applicazioni possono avere informazioni diverse sul contesto.

    • Caratteristiche: un'unità di informazioni su un elemento di contenuto o su un contesto utente. Assicurarsi di usare solo caratteristiche aggregate. Non usare orari specifici, ID utente o altri dati non aggregati come caratteristiche.

      • Una caratteristica di azione sono i metadati relativi al contenuto.
      • Una caratteristica di contesto sono i metadati relativi al contesto in cui viene presentato il contenuto.
  • Esplorazione: il servizio Personalizer esegue l'esplorazione quando, invece di restituire l'azione ottimale, ne sceglie una diversa per l'utente. Il servizio Personalizza esperienze evita scenari di deriva e di stallo e può adattarsi al comportamento in corso dell'utente tramite esplorazione.

  • Azione migliore appresa: il servizio Personalizer utilizza il modello attuale per determinare l'azione migliore in base ai dati passati.

  • Durata dell'esperimento: il periodo di tempo durante il quale il servizio di Personalizzazione attende una ricompensa, a partire dal momento in cui avviene la chiamata di Classificazione per quell'evento.

  • Eventi inattivi: Un evento inattivo si verifica quando viene effettuata una chiamata a Rank, ma non è sicuro che l'utente visualizzerà il risultato a causa delle decisioni dell'applicazione client. Gli eventi inattivi consentono di creare e archiviare i risultati della personalizzazione e quindi di decidere di rimuoverli in seguito senza influire sul modello di Machine Learning.

  • Ricompensa: la misura del tipo di risposta data dall'utente all'ID dell'azione di ricompensa restituita dall'API Classificazione, sotto forma di punteggio compreso tra 0 e 1. Il valore da 0 a 1 viene impostato dalla logica di business in base all'efficacia della scelta per realizzare gli obiettivi aziendali della personalizzazione. Il ciclo di apprendimento non archivia questa ricompensa come cronologia utente singola.

Valutazioni

Valutazioni offline

  • Valutazione: una valutazione offline determina i criteri di apprendimento migliori per il ciclo in base ai dati dell'applicazione.

  • Criteri di apprendimento: la modalità di training di un modello per ogni evento scelta da Personalizza esperienze verrà determinata da alcuni parametri che influiscono sul funzionamento dell'algoritmo di Machine Learning. Un nuovo ciclo di apprendimento inizia con criteri di apprendimento predefiniti, che possono produrre prestazioni moderate. Quando si eseguono valutazioni, Personalizza esperienze crea nuovi criteri di apprendimento ottimizzati in modo specifico per i casi d'uso del ciclo. Personalizer offrirà prestazioni notevolmente migliori con politiche ottimizzate per ogni ciclo specifico, generate durante la Valutazione. I criteri di apprendimento sono denominati impostazioni learning nel Model e impostazioni di apprendimento per la risorsa personalizza esperienze nel portale di Azure.

Valutazioni della modalità apprendista

La modalità apprendista fornisce le metriche di valutazione seguenti:

  • Linea di base - Ricompensa media: ricompense media dell'impostazione predefinita (linea di base) dell'applicazione.
  • Personalizza esperienze - Ricompensa media: è possibile che sia stata raggiunta la media delle ricompense totali di Personalizza esperienze.
  • Media mobile ricompense: rapporto tra ricompensa di base e ricompensa di Personalizza esperienze normalizzato sugli ultimi 1000 eventi.

Passaggi successivi