Entwurfsauswertungsaufforderungen

Die Qualität Ihrer Bewertung hängt von der Qualität Ihrer Eingabeaufforderungen ab. Gut entworfene Eingabeaufforderungen testen genau das, was Sie beabsichtigen – nicht mehr und nicht weniger.

In diesem Artikel wird erläutert, wie Sie Auswertungsaufforderungen entwerfen, die klare, umsetzbare Ergebnisse erzeugen.

Aufbau einer effektiven Auswertungsaufforderung

Effektive Auswertungsaufforderungen haben vier Merkmale:

  • Einzelne Absicht
  • Realistischer Ausdruck
  • Datengrund
  • Eigenständig

Einzelne Absicht

Jede Eingabeaufforderung sollte ein Benutzerziel oder eine Frage testen. Eingabeaufforderungen mit mehreren Absichten machen es schwierig, die Ursache eines Fehlers zu identifizieren.

Mehrere Absichten (vermeiden) Einzelne Absicht (bevorzugt)
Was ist mein PTO-Guthaben und können Sie mir einen Laptop bestellen? Wie lautet mein PTO-Guthaben?
Erzähle mir von gesundheitlichen Vorteilen und auch dem 401k Match. Welche Krankenversicherungspläne sind verfügbar?

Um mehrere Funktionen zusammen zu testen, verwenden Sie Multi-Turn-Konversationsauswertungen, anstatt Absichten in einer einzigen Eingabeaufforderung zu kombinieren.

Realistischer Ausdruck

Prompts sollte widerspiegeln, wie Benutzer tatsächlich kommunizieren, einschließlich informeller Sprache, unvollständiger Sätze und unterschiedlicher Detailebenen.

Übermäßig formal Realistische
Bitte geben Sie Informationen über die jährliche Zuweisung der bezahlten Arbeitszeit für Arbeitnehmer im ersten Beschäftigungsjahr an. Wie viele Urlaubstage erhalten Neueinstellungen?
Ich möchte einen Antrag auf Beschaffung von Computergeräten initiieren. Ich muss einen Laptop bestellen.

Sie können realistische Eingabeaufforderungen ableiten aus:

  • Produktionsabfrageprotokolle
  • Benutzerforschungssitzungen
  • Supporttickets
  • Tägliche Gespräche am Arbeitsplatz

Datengrund

Prompts sollten auf Daten geerdet werden. Wenn Erdungsdaten verfügbar sind, verwenden Sie bestimmte Entitäten, Werte und Bezeichner. Dieser Ansatz macht Auswertungen messbar und überprüfbar.

Geerdete Eingabeaufforderungen lassen präzise Assertionen wie "Die Antwort enthält 15 Tage" anstelle von vagen Überprüfungen wie "Die Antwort enthält die richtige Zahl" zu.

Ohne Erdungsdaten

Eingabeaufforderung: "Was ist die PTO-Richtlinie für Techniker?"

Mit Erdungsdaten

Erdungsdaten:

  • Mitarbeiter: Marcus Johnson
  • Fachbereich: Engineering
  • Amtszeit: 8 Monate
  • Geschäftsführerin: Lisa Park
  • Standort: Büro In Austin

Eingabeaufforderung: "Ich bin im Engineering-Team – wie viele Urlaubstage erhalte ich?"

Eigenständig (single-turn)

Für Einzelauswertungen muss jede Eingabeaufforderung den gesamten erforderlichen Kontext enthalten. Der Agent kann sich nicht auf vorherige Konversationswechsel verlassen. Die folgende Tabelle enthält Beispiele für eigenständige Eingabeaufforderungen.

Eigenständig Abhängig vom Kontext (vermeiden)
Was deckt der PPO-Integritätsplan ab? Was ist mit dem anderen Gesundheitsplan?
Was sind die Mitarbeiterkosten für den PPO-Integritätsplan? Und wie viel kostet das?
Können Sie ein 16-Zoll-MacBook Pro bestellen? Können Sie das stattdessen bestellen?

Verwenden Sie für Szenarien, die mehrere Durchläufe umfassen, Unterhaltungen mit mehreren Durchläufen.

Eingabeaufforderungsvariationen

Nicht alle Benutzer stellen dieselbe Frage auf die gleiche Weise. Um die Generalisierung zu testen, erstellen Sie drei Variationen jeder Eingabeaufforderung.

Kanonische Eingabeaufforderungen

Kanonische Eingabeaufforderungen sind explizit, vollständig und eindeutig. Sie dienen als Basis.

  • Schließen Sie alle erforderlichen Parameter ein.
  • Verwenden Sie eine präzise Terminologie.
  • Vermeiden Sie Mehrdeutigkeiten.
  • Stellen Sie eine ideale Abfrage dar.

Beispiel

"Wie viele bezahlte freigestellte Tage erhalten Mitarbeiter mit weniger als zwei Jahren Amtszeit jährlich gemäß der aktuellen PTO-Richtlinie?"

Variante in natürlicher Sprache

Die Variante der natürlichen Sprache spiegelt alltägliche Konversationsausdrücke wider. Varianten in natürlicher Sprache:

  • Verwenden Sie eine lockere, konversationssprachliche Sprache.
  • Kann Synonyme oder informelle Begriffe enthalten.
  • Vermeiden Sie technische Bezeichner.
  • Bleiben Sie vollständig genug, um antworten zu können.

Beispiel

"Hey, wie viel Urlaub bekomme ich als Neueinstellungen?"

In der folgenden Tabelle werden kanonische Eingabeaufforderungen und Varianten natürlicher Sprache verglichen.

Technik Kanonische Natürliche Variante
Synonyme "bezahlte Freizeit" "Urlaubstage", "Freizeit", "PTO"
Informelle Formulierung "Wie viele Tage erhalte ich?" "Wie viel bekomme ich"
Impliziter Kontext "Mitarbeiter mit <2 Jahren Betriebsdauer" "als Neueinstellung"
Lässiges Gehäuse Richtige Groß-/Kleinschreibung Kleinbuchstaben, minimale Interpunktion

Stabilitätstest

Der Stabilitätstest wertet aus, wie gut der Agent unvollkommene Eingaben verarbeitet. Stabilitätstests:

  • Fügen Sie realistische Tippfehler ein.
  • Enthält Grammatikfehler.
  • Verwenden Sie Kurzform oder Abkürzungen.
  • Testen Sie die Absichtserkennung unter Rauschen.

Beispiel: "whats my vacaton days entitlement"

Die folgende Tabelle enthält Beispiele für zu testde Muster.

Muster Beispiel
Tippfehler "vacaton" statt "urlaub"
Fehlende Interpunktion "whats" statt "what's"
Fehlende Wörter "wie viele Tage bekommen"
Abkürzungen "PTO Bal?"
Run-On-Abfragen "Brauchen Laptop Macbook Pro 16 Zoll"

Vollständige Beispiele für Die Eingabeaufforderungsvariation

Die folgenden Beispiele veranschaulichen alle drei Eingabeaufforderungstypen für ein einzelnes Szenario.

Szenario: Gerätebestellung

Dieses Szenario umfasst die folgenden Erdungsdaten:

  • Mitarbeiterin: Katrin Pold
  • Abteilung: Produktdesign
  • Startdatum: 15.01.2024
  • Ausrüstungsbudget: 3.500 USD
  • Genehmigte Elemente: MacBook Pro (14 Zoll oder 16 Zoll), Externer Monitor, Tastatur, Maus

Eingabeaufforderungsvariationen

Kanonische

"Ab dem 15. Januar 2024 bin ich ein neuer Mitarbeiter in der Produktdesignabteilung. Ich muss einen 16-Zoll MacBook Pro Laptop bestellen. Bitte übermitteln Sie diese Geräteanforderung über das IT-Bestellsystem."

Natürliche Sprache

"Hallo, ich bin gerade dem Produktdesignteam beigetreten und muss meinen Laptop einrichten. Kann ich ein MacBook Pro bekommen? Die 16 Zoll vorzugsweise."

Stabilitätstest

"Notwendigkeit, macbook Pro 16in für neue Aufgabe im Produktdesign zu bestellen"

Assertionen (gelten für alle Variationen):

  • Die Antwort bestätigt, dass der Geräteauftrag initiiert wurde.
  • Der Agent hat das OrderEquipment-Tool aufgerufen.
  • Der Toolaufruf enthält "MacBook Pro 16 Zoll" (oder eine entsprechende Version).
  • Die Antwort enthält eine Auftragsbestätigung oder Referenznummer.

Szenario: Richtlinienfrage mit Personalisierung

Dieses Szenario umfasst die folgenden Erdungsdaten:

  • Mitarbeiter: James Wright
  • Standort: London, Uk Office
  • Amtszeit: 6 Monate
  • Beschäftigungstyp: Vollzeit

Eingabeaufforderungsvariationen

Kanonische

"Welche gesetzlichen Feiertage habe ich als Vollzeitmitarbeiter mit Sitz in London, Großbritannien, mit 6 Monaten Amtszeit in diesem Jahr?"

Natürliche Sprache

"Ich arbeite im Londoner Büro – welche Feiertage bekomme ich aus?"

Stabilitätstest

"Uk office holidays off this yr?"

Assertionen (gelten für alle Variationen):

  • In der Antwort werden britische Feiertage (keine US-Feiertage) aufgeführt.
  • Die Antwort umfasst mindestens: Neujahr, Ostern, Weihnachten.
  • Die Antwort verweist auf die Richtlinie oder den Zeitplan des Vereinigten Königreichs.
  • Die Antwort Erwähnung US-Feiertage wie dem 4. Juli oder Thanksgiving nicht.

Zu vermeidende Muster

Vermeiden Sie die folgenden Eingabeaufforderungsmuster.

Eingabeaufforderungen mit mehreren Absichten

Vermeiden Sie Eingabeaufforderungen mit mehreren Absichten. Wenn Ihre Eingabeaufforderung mehrere Absichten abdeckt, können Sie nicht ermitteln, welche Absicht einen Fehler verursacht hat.

  • Vermeide: Was ist mein PTO-Kontostand, und können Sie mir etwas über die Krankenversicherungsoptionen erzählen, und ich benötige möglicherweise auch einen Laptop?
  • Verwenden Sie stattdessen Folgendes: Teilen Sie sich in separate Eingabeaufforderungen auf, oder verwenden Sie die Multithreadauswertung.

Schemafähige Eingabeaufforderungen

Vermeiden Sie schemabezogene Eingabeaufforderungen. Schemafähige Eingabeaufforderungen funktionieren nicht gut, da Benutzer interne APIs oder Toolnamen nicht kennen.

  • Vermeide: Aufrufen der GetPTOBalance-API für die Mitarbeiter-ID 12345
  • Verwenden Sie stattdessen Folgendes: "Wie sieht meine aktuelle Urlaubsbilanz aus?"

Vage Eingabeaufforderungen

Vermeiden Sie vage Eingabeaufforderungen. Wenn Ihre Eingabeaufforderung vage ist, können Sie keine messbaren Assertionen definieren.

  • Vermeide: "Helfen Sie mir bei Personalwesen"
  • Verwenden Sie stattdessen Folgendes: "Gewusst wie in die Zahnversicherung einschreiben?"

Führende Eingabeaufforderungen

Prompts, die auf die erwartete Antwort hinweisen, testen nicht die tatsächliche Argumentationseffektivität des Agenten.

  • Vermeide: "Die PTO-Richtlinie sagt 15 Tage, oder?"
  • Verwenden Sie stattdessen Folgendes: "Wie viele PTO-Tage erhalten neue Mitarbeiter?"

Nicht eigenständig (single-turn)

Vermeiden Sie Eingabeaufforderungen, die vom vorherigen Kontext abhängen.

  • Vermeide: "Was ist mit der anderen Option?"
  • Verwenden Sie stattdessen Folgendes: "Was ist der Unterschied zwischen den HMO- und PPO-Integritätsplänen?"

Generieren von Eingabeaufforderungen aus Benutzerszenarien

Beginnen Sie mit einer echten Benutzerabsicht anstelle von Featurelisten.

  • Sammeln Sie repräsentative Benutzerfragen.
  • Gruppierung nach Szenario (z. B. Richtliniensuche, Aktionen, Eskalation).
  • Schreiben Sie für jedes Szenario eine kanonische Eingabeaufforderung.
  • Fügen Sie Varianten für natürliche Sprache und Stabilität hinzu.
  • Bodenaufforderungen mit konkreten Daten.

Dieser Ansatz stellt sicher, dass Auswertungen die reale Nutzung widerspiegeln.

KI-gestützte Eingabeaufforderungserweiterung (optional)

Nachdem Sie eine starke Baseline festgelegt haben, verwenden Sie KI, um die Abdeckung zu erweitern. Bitten Sie KI, weitere Varianten vorzuschlagen. Überprüfen Sie jeden Vorschlag auf Realismus und Relevanz. Ablehnen von Eingabeaufforderungen, die unnatürlich, schemafähig oder außerhalb des Gültigkeitsbereichs sind. Fügen Sie Eingabeaufforderungen nur dort hinzu, wo sie die Abdeckung verbessern.

Checkliste für die Eingabeaufforderungsabdeckung

Verwenden Sie diese Prüfliste, um sicherzustellen, dass ihre Eingabeaufforderungsabdeckung vollständig ist.

Funktionsabdeckung

  • Jedes Tool oder jede Aktion verfügt über mindestens einen Testfall.
  • Jede Wissensdomäne wird dargestellt
  • Eskalationsverhalten wird getestet
  • Szenarien, die außerhalb des Gültigen Bereichs liegen, werden getestet

Variationsabdeckung

  • Kanonische Eingabeaufforderung
  • Variante in natürlicher Sprache
  • Stabilitätstest

Edgefälle

  • Sehr kurze Eingabeaufforderungen
  • Sehr lange Eingabeaufforderungen
  • Mehrdeutige Anforderungen
  • Fehlende Informationen
  • Ungültige oder nicht unterstützte Anforderungen

Personalisierung (falls zutreffend)

  • Unterschiedliche Benutzerspeicherorte
  • Unterschiedliche Mandantenebenen
  • Verschiedene Rollen oder Abteilungen

Nächster Schritt