Köra utvärderingar från Microsoft Foundry-portalen

Viktigt

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.

Utvärdera prestanda och säkerhet för dina generativa AI-modeller och agenter genom att köra dem mot en testdatauppsättning. Under en utvärdering testas modellen eller agenten med datamängden och dess prestanda mäts med hjälp av inbyggda och anpassade utvärderare.

Använd Foundry-portalen för att köra utvärderingar, visa resultat och analysera mått.

Förutsättningar

  • En testdatauppsättning i CSV- eller JSON Lines-format (JSONL) eller en modell eller agent som ska utvärderas.
  • En Azure OpenAI-anslutning med en distribuerad GPT-modell som stöder chattens slutförande (till exempel gpt-5-mini). Krävs endast för kvalitetsutvärderingar med AI-assisterad användning.
  • Azure AI User roll i Foundry-projektet. Mer information finns i Role-baserad åtkomstkontroll för Microsoft Foundry.

Skapa en utvärdering

Du kan starta en utvärdering från flera platser i Foundry-portalen:

  • Utvärderingssida: I det vänstra fönstret, välj Utvärdering>Skapa.
  • Sidan Modeller: Gå till din modell, välj fliken Utvärdering och välj sedan Skapa.
  • Sidan Agenter: Gå till din agent, välj fliken Utvärdering och välj sedan Skapa.
  • Agentlekplats: Gå till din agent, välj fliken Lekplats och välj sedan Mått>Kör fullständig utvärdering.

Utvärderingsmål

När du skapar en utvärdering väljer du först utvärderingsmålet. Målet avgör vad utvärderingen körs mot:

  • Agent: Utvärderar utdata som genereras av den valda agenten och användardefinierade indata. Fungerar för både promptagenter och värdbaserade agenter.
  • Modell: Utvärderar utdata som genereras av den valda modellen och användardefinierad prompt.
  • Datauppsättning: Utvärderar befintliga modell- eller agentutdata från en testdatauppsättning.
  • Spårningar: Utvärderar agentinteraktioner som redan har samlats in i Application Insights. Välj agenten och tidsintervallet och portalen hämtar matchande spårningar för utvärdering. Se Spårningsutvärdering för SDK-motsvarigheten.

Välj eller skapa en datauppsättning

Ange en datauppsättning för utvärderingen. Du kan ladda upp din egen datauppsättning eller syntetiskt generera en.

  • Lägg till ny datauppsättning: Ladda upp filer från din lokala lagring. Endast CSV- och JSONL-filformat stöds. En förhandsgranskning av dina testdata visas i den högra rutan.
  • Syntetisk datamängdsgenerering: Generera en syntetisk datamängd när du inte har testdata. Ange resursen, antalet rader och en uppmaning som beskriver de data som ska genereras. Du kan också ladda upp filer för att förbättra relevansen.

Observera

Syntetisk datagenerering kräver en modell med svars-API-kapacitet. Mer information om tillgänglighet finns i Svars-API-regionens tillgänglighet.

Multimodalt innehåll (förhandsversion)

Alla utvärderingsmål – Agent, Modell, Datauppsättning och Spårningar – stöder bild- och ljudinnehåll. Varje innehållstyp använder ett specifikt JSONL-schema:

Bildinnehåll:

  • image_url: Bilden som en data-URI (till exempel data:image/png;base64,...) eller en offentligt tillgänglig URL.
  • caption: En textbeskrivning av bildinnehållet.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Ljudinnehåll:

  • audio_data: Ljudet som en data-URI med base64-kodade WAV-data (till exempel data:audio/wav;base64,...).
  • expected: En textbeskrivning av det förväntade ljudinnehållet.

Observera

Endast WAV-ljudformat stöds för närvarande.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

Datauppsättningar kan också använda konversationsformatet för chattmeddelanden, där ljud- och bilddata bäddas in i en enda chattmeddelandekolumn som data-URI:er eller offentligt tillgängliga URL:er.

I följande exempel visas en konversationsdatauppsättningskolumn med inbäddat bild- och ljudinnehåll:

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://my-website.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  { 
    "role": "assistant", 
    "content": "..." 
  }, 
  { 
    "role": "user", 
    "content": [
      {         "type": "text", 
        "text": "Tell me the tones for the voices?" 
      },
      { 
        "type": "input_audio", 
        "input_audio": {
          "data": "https://my-website.com/path/voice.wav", 
          "format": "wav" 
        }
      },
      { 
        "type": "input_audio", 
        "input_audio": { 
          "data": "data:audio/wav;base64,UklGRigAAA...", 
          "format": "wav" 
        } 
      }
    ] 
  } 
] 

Du kan förhandsgranska bilder och spela upp ljudklipp direkt i utvärderingsflödet och i utvärderingsresultatvyn.

Konfigurera testvillkor

Välj de utvärderare som ska användas för utvärderingen. Microsoft Foundry innehåller tre kategorier av inbyggda utvärderare:

  • Agentutvärderingar – Utvärdera hur effektivt agenter hanterar uppgifter, verktyg och användar avsikter.
  • Kvalitetsutvärderingar – Mät den övergripande kvaliteten på genererade svar. Innehåller både AI-assisterade mått (kräver en modellimplementation som domare) och NLP-mått (matematiska, kräver ofta referensdata).
  • Säkerhetsutvärderingar – Identifiera potentiellt innehåll och säkerhetsrisker i genererade utdata. Säkerhetsutvärderingar kräver ingen modelldistribution.

Du kan också skapa egna anpassade utvärderare och välja dem när du konfigurerar testkriterier.

En fullständig lista över tillgängliga utvärderare finns i Inbyggda utvärderare.

Datamappning

Olika utvärderare kräver olika dataindata. Portalen mappar automatiskt dina datauppsättningsfält till de fält som varje utvärderare förväntar sig. Kontrollera mappnings- och omtilldelningsfälten om det behövs.

Om portalen inte kan mappa ett fält automatiskt visas fältet som Ej tilldelat. Välj listrutan fält för att manuellt tilldela en kolumn från datauppsättningen. Obligatoriska fält markeras med en asterisk (*) – utvärderarna misslyckas om obligatoriska fält lämnas otilldelade.

Fältkrav per utvärderare finns på respektive utvärderarsida under Inbyggda utvärderare.

Granska och skicka

När du har konfigurerat klart anger du ett namn för utvärderingen, granskar inställningarna och väljer Skicka.

När du har skickat startar utvärderingskörningen. Utvärderingar slutförs vanligtvis inom några minuter, beroende på datamängdens storlek. Om du vill visa resultat väljer du utvärderingsnamnet på sidan Utvärdering eller läser Visa utvärderingsresultatet.

Läs mer om att utvärdera dina generativa AI-modeller och agenter: