Erkundung

Wichtig

Ab dem 20. September 2023 können Sie keine neuen Personalizer-Ressourcen erstellen. Der Personalizer-Dienst wird am 1. Oktober 2026 eingestellt. Wir empfehlen, zu dem Open-Source-Projekt microsoft/learning-loop zu migrieren.

Durch Exploration ist der Personalisierer in der Lage, auch dann fortlaufend gute Ergebnisse zu liefern, wenn sich das Benutzerverhalten ändert.

Wenn der Personalizer einen Rank-Aufruf empfängt, gibt er eine RewardActionID zurück, die entweder:

  • Verwendet die bekannte Relevanz, um das wahrscheinlichste Benutzerverhalten basierend auf dem aktuellen Maschinenlernmodell zu ermitteln.
  • Verwendet Erkundung, die nicht mit der Aktion übereinstimmt, die in der Rangfolge die höchste Wahrscheinlichkeit aufweist.

Der Personalisierer verwendet derzeit den Epsilon-Greedy-Algorithmus für das Sondieren.

Auswählen einer Sondierungseinstellung

Sie konfigurieren den Prozentsatz des Datenverkehrs für die Sondierung im Azure-Portal auf der Seite Konfiguration für die Personalisierung. Diese Einstellung bestimmt den Prozentsatz von Rangaufrufen, bei denen eine Sondierung erfolgt.

Die Personalisierung bestimmt, ob für jeden Rangaufruf die wahrscheinlichste Aktion des Modells untersucht oder verwendet werden soll. Dies unterscheidet sich vom Verhalten bei einigen A/B-Frameworks, in denen eine Vorgehensweise für bestimmte Benutzer-IDs festgelegt ist.

Best Practices für das Auswählen einer Sondierungseinstellung

Die Auswahl einer Erkundungseinstellung ist eine geschäftliche Entscheidung über den Anteil der Benutzerinteraktionen, der erkundet werden soll, um das Modell zu verbessern.

Mit der Einstellung 0 (null) gehen viele Vorteile der Personalisierung verloren. Mit dieser Einstellung verwendet der Personalisierer keine Benutzerinteraktionen, um bessere Interaktionen zu entdecken. Dies führt zu Stagnation, Abweichung (Concept Drift) und letztlich zu einer geringeren Leistung des Modells.

Eine zu hohe Einstellung negiert die Vorteile des Lernens vom Benutzerverhalten. Die Festlegung auf 100 % bedeutet eine konstante Randomisierung, sodass gelerntes Verhalten von Benutzern keinen Einfluss auf das Ergebnis mehr hat.

Es ist wichtig, das Verhalten der Anwendung nicht zu ändern, wenn Sie erkennen, dass die Personalisierung die gelernte beste Aktion sondiert oder einsetzt. Dies würde zu einer Beeinflussung des Lernens führen und damit letztendlich die potenzielle Leistung verringern.

Nächste Schritte

Vertiefendes Lernen