Optimalisatiestrategieën vergelijken en combineren

7 minuten

Tip

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

Nu u prompt engineering, RAG en fine-tuning afzonderlijk hebt verkend, gaan we kijken hoe ze zich tot elkaar verhouden. Deze strategieën sluiten elkaar niet uit; ze zijn complementaire methoden die u kunt combineren om te voldoen aan verschillende optimalisatiedoelen.

Inzicht in het optimalisatiespectrum

De drie optimalisatiestrategieën hebben betrekking op verschillende dimensies van modelprestaties:

Diagram met de verschillende strategieën om de prestaties van het model te optimaliseren, van prompt engineering tot RAG en afstemming.

Optimaliseren voor context: wanneer het model geen domeinspecifieke kennis heeft en u de nauwkeurigheid van reacties wilt maximaliseren. RAG lost dit op door relevante gegevens op te halen uit externe bronnen.
Optimaliseer het model: wanneer u de antwoordindeling, stijl of toon wilt verbeteren door de consistentie van het gedrag te maximaliseren. Verfijn dit door het model te trainen op voorbeelden die de gewenste uitvoer demonstreren.

Prompt engineering is de basis die beide richtingen ondersteunt. U gebruikt prompt-engineering om het model te instrueren hoe u zich moet gedragen en waar u zich op moet richten. Vervolgens kunt u RAG of fine-tuning toepassen wanneer alleen prompt engineering niet voldoende is.

Strategieën vergelijken

Elke strategie heeft verschillende afwegingen in termen van implementatietijd, complexiteit, kosten en wat het beste doet:

Strategie	Tijd om te implementeren	Complexiteit	Kosten	Ideaal voor
Promptengineering	Laag	Laag	Laag (alleen per token)	Geleiding van toon, opmaak en gedrag; snelle iteratie; instructies en voorbeelden geven
RAG	Gemiddeld	Gemiddeld	Gemiddeld (zoekinfrastructuur + opslag + per-token)	Feitelijke nauwkeurigheid, domeinspecifieke kennis, dynamische of vaak veranderende gegevens
Fijn afstellen	Hoog	Hoog	Hoog (training-berekening + modelhosting + per-token)	Gedragsconsistentie, handhaving van stijl, verkorten van de promptlengte, modeldestillatie

Snelle technische afwegingen

Prompt engineering is de snelste en minst dure optimalisatiestrategie. U kunt direct beginnen zonder dat er infrastructuurwijzigingen zijn. Langere prompts verbruiken echter meer tokens per aanvraag en het model volgt mogelijk niet altijd consistente complexe instructies. Prompt engineering kan het model ook geen toegang geven tot informatie waarop het niet is getraind.

RAG-compromissen

RAG biedt het model up-to-date, relevante gegevens op het moment van query's, waardoor de feitelijke nauwkeurigheid aanzienlijk wordt verbeterd. Hiervoor moet u echter een search service instellen, een index maken en onderhouden en insluitingen verwerken. De kwaliteit van RAG-antwoorden is afhankelijk van de kwaliteit van uw zoekindex en hoe goed uw gegevens zijn gesegmenteerd en geïndexeerd.

Bijstellen van compromissen

Fijnafstemming produceert het meest consistente modelgedrag omdat de gewenste patronen zijn ingesloten in de gewichten van het model. Het kan ook kosten per aanvraag verlagen door prompts te verkorten. Fijn afstemmen vergt echter de hoogste initiële investering: u moet trainingsgegevens voorbereiden, betalen voor trainingsberekeningen en het aangepaste model hosten. Het aangepaste model moet mogelijk ook opnieuw worden getraind wanneer het basismodel wordt bijgewerkt of wanneer uw vereisten veranderen.

Strategieën combineren voor betere resultaten

De meest effectieve generatieve AI-toepassingen gebruiken vaak meerdere strategieën samen. Hier volgen veelvoorkomende combinaties:

Prompt engineering + RAG

Dit is de meest voorkomende combinatie. U gebruikt prompt engineering om het gedrag van het model te definiëren (via systeemberichten en instructies) en RAG om de feitelijke context te bieden die nodig is voor nauwkeurige antwoorden. Voorbeeld:

Het systeembericht geeft het model de opdracht om op een specifieke manier te fungeren als reisadviseur en reacties op te maken.
RAG haalt details op uit de hotelcatalogus, zodat het model kan antwoorden met echte hotelnamen en prijzen.

Deze combinatie heeft betrekking op de werking van het model en wat het model moet weten.

Prompt engineering + fijn-tuning

Gebruik deze combinatie wanneer u het model nodig hebt om consistent een specifieke stijl of indeling te volgen. Het nauwkeurig afgestemde model verwerkt het basislijngedrag en het systeembericht biedt extra context per gesprek. Voorbeeld:

Het verfijnde model is getraind om altijd te reageren in de merkstem van het reisbureau.
Het systeembericht voegt sessiespecifieke instructies toe, zoals het geven van prioriteit aan een seizoenspromotie.

RAG + fijn afstemmen

Combineer deze strategieën wanneer u zowel feitelijke gronding als consistent gedrag nodig hebt. Het nauwkeurig afgestemde model zorgt ervoor dat de responsstijl betrouwbaar is, terwijl RAG de huidige, domeinspecifieke gegevens levert. Voorbeeld:

Het verfijnde model produceert antwoorden in de merkstem en gestructureerde indeling van het agentschap.
RAG haalt up-to-date hotelprijzen en beschikbaarheid op uit de catalogus.

Alle drie de strategieën samen

Voor de meest veeleisende toepassingen kunt u prompt engineering, RAG en een verfijnd model samen gebruiken. Elke laag verwerkt een andere zorg:

Fijnafstemming zorgt voor consistente stijl en opmaak.
RAG biedt nauwkeurige, up-to-date domeinkennis.
Prompt engineering voegt gespreksspecifieke instructies en kaders toe.

Een beslissingskader toepassen

Wanneer u besluit welke strategieën u wilt gebruiken, start u eenvoudig en voegt u alleen complexiteit toe wanneer dat nodig is:

Begin met promptontwikkeling: systeemberichten, few-shot voorbeelden en parameterafstemming testen. Evalueer of de resultaten voldoen aan uw vereisten.
Add RAG als nauwkeurigheid van belang is: Als het model access nodig heeft om specifieke, actuele of persoonlijke gegevens correct te beantwoorden, implementeert u RAG met Azure AI Zoeken.
Voeg fijnafstemming toe als consistentie van belang is: Als het model de gewenste stijl, toon of indeling niet betrouwbaar onderhoudt ondanks gedetailleerde prompts, past u het model af met representatieve voorbeelden.
Combineer indien nodig: Laagstrategieën op basis van de specifieke vereisten van uw toepassing. Niet elke toepassing heeft alle drie de behoeften.

Deze incrementele benadering helpt u onnodige kosten en complexiteit te voorkomen, terwijl u ervoor zorgt dat u het optimalisatieniveau bereikt dat uw toepassing nodig heeft.

Feedback

Is deze pagina nuttig?