De prestaties van een model handmatig evalueren
Tijdens de vroege fasen van de ontwikkeling van uw generatieve AI-app wilt u snel experimenteren en herhalen. Als u eenvoudig wilt beoordelen of uw geselecteerde taalmodel en -app, gemaakt met promptstroom, aan uw vereisten voldoen, kunt u modellen en stromen handmatig evalueren in de Microsoft Foundry-portal.
Zelfs wanneer uw model en app al in productie zijn, vormen handmatige evaluaties een cruciaal onderdeel van het beoordelen van de prestaties. Omdat handmatige evaluaties door mensen worden uitgevoerd, kunnen ze inzichten bieden die geautomatiseerde metrische gegevens kunnen missen.
Laten we eens kijken hoe u uw geselecteerde modellen en apps handmatig kunt evalueren in de Microsoft Foundry-portal.
Testprompts voorbereiden
Als u het handmatige evaluatieproces wilt starten, is het essentieel om een diverse set testprompts voor te bereiden die overeenkomen met het bereik van query's en taken die uw app naar verwachting moet verwerken. Deze prompts moeten betrekking hebben op verschillende scenario's, waaronder veelvoorkomende gebruikersvragen, edge-cases en mogelijke foutpunten. Hierdoor kunt u de prestaties van de app uitgebreid beoordelen en gebieden voor verbetering identificeren.
Het geselecteerde model testen in de chatspeeltuin
Wanneer u een chattoepassing ontwikkelt, gebruikt u een taalmodel om een antwoord te genereren. U maakt een chattoepassing door een promptstroom te ontwikkelen waarmee de logica van uw chattoepassing wordt ingekapseld, die meerdere taalmodellen kan gebruiken om uiteindelijk een antwoord te genereren op een gebruikersvraag.
Voordat u het antwoord van uw app test, kunt u het antwoord van het geselecteerde taalmodel testen om te controleren of het afzonderlijke model werkt zoals verwacht. U kunt een model testen dat u hebt geïmplementeerd in de Microsoft Foundry-portal door ermee te communiceren in de chatspeeltuin.
De chatspeeltuin is ideaal voor vroege ontwikkeling. U kunt een prompt invoeren, zien hoe het model reageert en de prompt of het systeembericht aanpassen om verbeteringen aan te brengen. Nadat u de wijzigingen hebt toegepast, kunt u een prompt opnieuw testen om te evalueren of de prestaties van het model inderdaad zijn verbeterd.
Meerdere prompts evalueren met handmatige evaluaties
De chatspeeltuin is een eenvoudige manier om aan de slag te gaan. Als u meerdere prompts handmatig sneller wilt evalueren, kunt u de functie voor handmatige evaluaties gebruiken. Met deze functie kunt u een gegevensset met meerdere vragen uploaden en eventueel een verwacht antwoord toevoegen om de prestaties van het model te evalueren op een grotere testgegevensset.
U kunt de reacties van het model beoordelen met de duimen omhoog of omlaag. Op basis van de algehele classificatie kunt u proberen uw model te verbeteren door de invoerprompt, het systeembericht, het model of de parameters van het model te wijzigen.
Wanneer u handmatige evaluaties gebruikt, kunt u de prestaties van het model sneller evalueren op basis van een diverse testgegevensset en het model verbeteren op basis van de testresultaten.
Nadat u een afzonderlijk model handmatig hebt geëvalueerd, kunt u het model integreren in een chatapplicatie met prompt flow. Elke flow die u met Prompt Flow creëert, kan ook handmatig of automatisch worden geëvalueerd. Vervolgens gaan we de evaluatie van stromen verkennen.