Entwurfsauswertungsaufforderungen

Die Qualität Ihrer Bewertung hängt von der Qualität Ihrer Eingabeaufforderungen ab. Gut entworfene Eingabeaufforderungen testen genau das, was Sie beabsichtigen – nicht mehr und nicht weniger.

In diesem Artikel wird erläutert, wie Sie Auswertungsaufforderungen entwerfen, die klare, umsetzbare Ergebnisse erzeugen.

Aufbau einer effektiven Auswertungsaufforderung

Effektive Auswertungsaufforderungen haben vier Merkmale:

Einzelne Absicht
Realistischer Ausdruck
Datengrund
Eigenständig

Einzelne Absicht

Jede Eingabeaufforderung sollte ein Benutzerziel oder eine Frage testen. Eingabeaufforderungen mit mehreren Absichten machen es schwierig, die Ursache eines Fehlers zu identifizieren.

Mehrere Absichten (vermeiden)	Einzelne Absicht (bevorzugt)
Was ist mein PTO-Guthaben und können Sie mir einen Laptop bestellen?	Wie lautet mein PTO-Guthaben?
Erzähle mir von gesundheitlichen Vorteilen und auch dem 401k Match.	Welche Krankenversicherungspläne sind verfügbar?

Um mehrere Funktionen zusammen zu testen, verwenden Sie Multi-Turn-Konversationsauswertungen, anstatt Absichten in einer einzigen Eingabeaufforderung zu kombinieren.

Realistischer Ausdruck

Prompts sollte widerspiegeln, wie Benutzer tatsächlich kommunizieren, einschließlich informeller Sprache, unvollständiger Sätze und unterschiedlicher Detailebenen.

Übermäßig formal	Realistische
Bitte geben Sie Informationen über die jährliche Zuweisung der bezahlten Arbeitszeit für Arbeitnehmer im ersten Beschäftigungsjahr an.	Wie viele Urlaubstage erhalten Neueinstellungen?
Ich möchte einen Antrag auf Beschaffung von Computergeräten initiieren.	Ich muss einen Laptop bestellen.

Sie können realistische Eingabeaufforderungen ableiten aus:

Produktionsabfrageprotokolle
Benutzerforschungssitzungen
Supporttickets
Tägliche Gespräche am Arbeitsplatz

Datengrund

Prompts sollten auf Daten geerdet werden. Wenn Erdungsdaten verfügbar sind, verwenden Sie bestimmte Entitäten, Werte und Bezeichner. Dieser Ansatz macht Auswertungen messbar und überprüfbar.

Geerdete Eingabeaufforderungen lassen präzise Assertionen wie "Die Antwort enthält 15 Tage" anstelle von vagen Überprüfungen wie "Die Antwort enthält die richtige Zahl" zu.

Ohne Erdungsdaten

Eingabeaufforderung: "Was ist die PTO-Richtlinie für Techniker?"

Mit Erdungsdaten

Erdungsdaten:

Mitarbeiter: Marcus Johnson
Fachbereich: Engineering
Amtszeit: 8 Monate
Geschäftsführerin: Lisa Park
Standort: Büro In Austin

Eingabeaufforderung: "Ich bin im Engineering-Team – wie viele Urlaubstage erhalte ich?"

Eigenständig (single-turn)

Für Einzelauswertungen muss jede Eingabeaufforderung den gesamten erforderlichen Kontext enthalten. Der Agent kann sich nicht auf vorherige Konversationswechsel verlassen. Die folgende Tabelle enthält Beispiele für eigenständige Eingabeaufforderungen.

Eigenständig	Abhängig vom Kontext (vermeiden)
Was deckt der PPO-Integritätsplan ab?	Was ist mit dem anderen Gesundheitsplan?
Was sind die Mitarbeiterkosten für den PPO-Integritätsplan?	Und wie viel kostet das?
Können Sie ein 16-Zoll-MacBook Pro bestellen?	Können Sie das stattdessen bestellen?

Verwenden Sie für Szenarien, die mehrere Durchläufe umfassen, Unterhaltungen mit mehreren Durchläufen.

Eingabeaufforderungsvariationen

Nicht alle Benutzer stellen dieselbe Frage auf die gleiche Weise. Um die Generalisierung zu testen, erstellen Sie drei Variationen jeder Eingabeaufforderung.

Kanonische Eingabeaufforderungen

Kanonische Eingabeaufforderungen sind explizit, vollständig und eindeutig. Sie dienen als Basis.

Schließen Sie alle erforderlichen Parameter ein.
Verwenden Sie eine präzise Terminologie.
Vermeiden Sie Mehrdeutigkeiten.
Stellen Sie eine ideale Abfrage dar.

Beispiel

"Wie viele bezahlte freigestellte Tage erhalten Mitarbeiter mit weniger als zwei Jahren Amtszeit jährlich gemäß der aktuellen PTO-Richtlinie?"

Variante in natürlicher Sprache

Die Variante der natürlichen Sprache spiegelt alltägliche Konversationsausdrücke wider. Varianten in natürlicher Sprache:

Verwenden Sie eine lockere, konversationssprachliche Sprache.
Kann Synonyme oder informelle Begriffe enthalten.
Vermeiden Sie technische Bezeichner.
Bleiben Sie vollständig genug, um antworten zu können.

Beispiel

"Hey, wie viel Urlaub bekomme ich als Neueinstellungen?"

In der folgenden Tabelle werden kanonische Eingabeaufforderungen und Varianten natürlicher Sprache verglichen.

Technik	Kanonische	Natürliche Variante
Synonyme	"bezahlte Freizeit"	"Urlaubstage", "Freizeit", "PTO"
Informelle Formulierung	"Wie viele Tage erhalte ich?"	"Wie viel bekomme ich"
Impliziter Kontext	"Mitarbeiter mit <2 Jahren Betriebsdauer"	"als Neueinstellung"
Lässiges Gehäuse	Richtige Groß-/Kleinschreibung	Kleinbuchstaben, minimale Interpunktion

Stabilitätstest

Der Stabilitätstest wertet aus, wie gut der Agent unvollkommene Eingaben verarbeitet. Stabilitätstests:

Fügen Sie realistische Tippfehler ein.
Enthält Grammatikfehler.
Verwenden Sie Kurzform oder Abkürzungen.
Testen Sie die Absichtserkennung unter Rauschen.

Beispiel: "whats my vacaton days entitlement"

Die folgende Tabelle enthält Beispiele für zu testde Muster.

Muster	Beispiel
Tippfehler	"vacaton" statt "urlaub"
Fehlende Interpunktion	"whats" statt "what's"
Fehlende Wörter	"wie viele Tage bekommen"
Abkürzungen	"PTO Bal?"
Run-On-Abfragen	"Brauchen Laptop Macbook Pro 16 Zoll"

Vollständige Beispiele für Die Eingabeaufforderungsvariation

Die folgenden Beispiele veranschaulichen alle drei Eingabeaufforderungstypen für ein einzelnes Szenario.

Szenario: Gerätebestellung

Dieses Szenario umfasst die folgenden Erdungsdaten:

Mitarbeiterin: Katrin Pold
Abteilung: Produktdesign
Startdatum: 15.01.2024
Ausrüstungsbudget: 3.500 USD
Genehmigte Elemente: MacBook Pro (14 Zoll oder 16 Zoll), Externer Monitor, Tastatur, Maus

Eingabeaufforderungsvariationen

Kanonische

"Ab dem 15. Januar 2024 bin ich ein neuer Mitarbeiter in der Produktdesignabteilung. Ich muss einen 16-Zoll MacBook Pro Laptop bestellen. Bitte übermitteln Sie diese Geräteanforderung über das IT-Bestellsystem."

Natürliche Sprache

"Hallo, ich bin gerade dem Produktdesignteam beigetreten und muss meinen Laptop einrichten. Kann ich ein MacBook Pro bekommen? Die 16 Zoll vorzugsweise."

Stabilitätstest

"Notwendigkeit, macbook Pro 16in für neue Aufgabe im Produktdesign zu bestellen"

Assertionen (gelten für alle Variationen):

Die Antwort bestätigt, dass der Geräteauftrag initiiert wurde.
Der Agent hat das OrderEquipment-Tool aufgerufen.
Der Toolaufruf enthält "MacBook Pro 16 Zoll" (oder eine entsprechende Version).
Die Antwort enthält eine Auftragsbestätigung oder Referenznummer.

Szenario: Richtlinienfrage mit Personalisierung

Dieses Szenario umfasst die folgenden Erdungsdaten:

Mitarbeiter: James Wright
Standort: London, Uk Office
Amtszeit: 6 Monate
Beschäftigungstyp: Vollzeit

Eingabeaufforderungsvariationen

Kanonische

"Welche gesetzlichen Feiertage habe ich als Vollzeitmitarbeiter mit Sitz in London, Großbritannien, mit 6 Monaten Amtszeit in diesem Jahr?"

Natürliche Sprache

"Ich arbeite im Londoner Büro – welche Feiertage bekomme ich aus?"

Stabilitätstest

"Uk office holidays off this yr?"

Assertionen (gelten für alle Variationen):

In der Antwort werden britische Feiertage (keine US-Feiertage) aufgeführt.
Die Antwort umfasst mindestens: Neujahr, Ostern, Weihnachten.
Die Antwort verweist auf die Richtlinie oder den Zeitplan des Vereinigten Königreichs.
Die Antwort Erwähnung US-Feiertage wie dem 4. Juli oder Thanksgiving nicht.

Zu vermeidende Muster

Vermeiden Sie die folgenden Eingabeaufforderungsmuster.

Eingabeaufforderungen mit mehreren Absichten

Vermeiden Sie Eingabeaufforderungen mit mehreren Absichten. Wenn Ihre Eingabeaufforderung mehrere Absichten abdeckt, können Sie nicht ermitteln, welche Absicht einen Fehler verursacht hat.

Vermeide: Was ist mein PTO-Kontostand, und können Sie mir etwas über die Krankenversicherungsoptionen erzählen, und ich benötige möglicherweise auch einen Laptop?
Verwenden Sie stattdessen Folgendes: Teilen Sie sich in separate Eingabeaufforderungen auf, oder verwenden Sie die Multithreadauswertung.

Schemafähige Eingabeaufforderungen

Vermeiden Sie schemabezogene Eingabeaufforderungen. Schemafähige Eingabeaufforderungen funktionieren nicht gut, da Benutzer interne APIs oder Toolnamen nicht kennen.

Vermeide: Aufrufen der GetPTOBalance-API für die Mitarbeiter-ID 12345
Verwenden Sie stattdessen Folgendes: "Wie sieht meine aktuelle Urlaubsbilanz aus?"

Vage Eingabeaufforderungen

Vermeiden Sie vage Eingabeaufforderungen. Wenn Ihre Eingabeaufforderung vage ist, können Sie keine messbaren Assertionen definieren.

Vermeide: "Helfen Sie mir bei Personalwesen"
Verwenden Sie stattdessen Folgendes: "Gewusst wie in die Zahnversicherung einschreiben?"

Führende Eingabeaufforderungen

Prompts, die auf die erwartete Antwort hinweisen, testen nicht die tatsächliche Argumentationseffektivität des Agenten.

Vermeide: "Die PTO-Richtlinie sagt 15 Tage, oder?"
Verwenden Sie stattdessen Folgendes: "Wie viele PTO-Tage erhalten neue Mitarbeiter?"

Nicht eigenständig (single-turn)

Vermeiden Sie Eingabeaufforderungen, die vom vorherigen Kontext abhängen.

Vermeide: "Was ist mit der anderen Option?"
Verwenden Sie stattdessen Folgendes: "Was ist der Unterschied zwischen den HMO- und PPO-Integritätsplänen?"

Generieren von Eingabeaufforderungen aus Benutzerszenarien

Beginnen Sie mit einer echten Benutzerabsicht anstelle von Featurelisten.

Sammeln Sie repräsentative Benutzerfragen.
Gruppierung nach Szenario (z. B. Richtliniensuche, Aktionen, Eskalation).
Schreiben Sie für jedes Szenario eine kanonische Eingabeaufforderung.
Fügen Sie Varianten für natürliche Sprache und Stabilität hinzu.
Bodenaufforderungen mit konkreten Daten.

Dieser Ansatz stellt sicher, dass Auswertungen die reale Nutzung widerspiegeln.

KI-gestützte Eingabeaufforderungserweiterung (optional)

Nachdem Sie eine starke Baseline festgelegt haben, verwenden Sie KI, um die Abdeckung zu erweitern. Bitten Sie KI, weitere Varianten vorzuschlagen. Überprüfen Sie jeden Vorschlag auf Realismus und Relevanz. Ablehnen von Eingabeaufforderungen, die unnatürlich, schemafähig oder außerhalb des Gültigkeitsbereichs sind. Fügen Sie Eingabeaufforderungen nur dort hinzu, wo sie die Abdeckung verbessern.

Checkliste für die Eingabeaufforderungsabdeckung

Verwenden Sie diese Prüfliste, um sicherzustellen, dass ihre Eingabeaufforderungsabdeckung vollständig ist.

Funktionsabdeckung

Jedes Tool oder jede Aktion verfügt über mindestens einen Testfall.
Jede Wissensdomäne wird dargestellt
Eskalationsverhalten wird getestet
Szenarien, die außerhalb des Gültigen Bereichs liegen, werden getestet

Variationsabdeckung

Kanonische Eingabeaufforderung
Variante in natürlicher Sprache
Stabilitätstest

Edgefälle

Sehr kurze Eingabeaufforderungen
Sehr lange Eingabeaufforderungen
Mehrdeutige Anforderungen
Fehlende Informationen
Ungültige oder nicht unterstützte Anforderungen

Personalisierung (falls zutreffend)

Unterschiedliche Benutzerspeicherorte
Unterschiedliche Mandantenebenen
Verschiedene Rollen oder Abteilungen

Nächster Schritt

Schreiben von Assertionen

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-29

Entwurfsauswertungsaufforderungen

Aufbau einer effektiven Auswertungsaufforderung

Einzelne Absicht

Realistischer Ausdruck

Datengrund

Eigenständig (single-turn)

Eingabeaufforderungsvariationen

Kanonische Eingabeaufforderungen

Variante in natürlicher Sprache

Stabilitätstest

Vollständige Beispiele für Die Eingabeaufforderungsvariation

Szenario: Gerätebestellung

Eingabeaufforderungsvariationen

Szenario: Richtlinienfrage mit Personalisierung

Eingabeaufforderungsvariationen

Zu vermeidende Muster

Eingabeaufforderungen mit mehreren Absichten

Schemafähige Eingabeaufforderungen

Vage Eingabeaufforderungen

Führende Eingabeaufforderungen

Nicht eigenständig (single-turn)

Generieren von Eingabeaufforderungen aus Benutzerszenarien

KI-gestützte Eingabeaufforderungserweiterung (optional)

Checkliste für die Eingabeaufforderungsabdeckung

Funktionsabdeckung

Variationsabdeckung

Edgefälle

Personalisierung (falls zutreffend)

Nächster Schritt

Feedback

Zusätzliche Ressourcen