Ottimizzare i modelli con Microsoft Foundry (versione classica)

Si applica solo a:Portale di Foundry (versione classica). Questo articolo non è disponibile per il nuovo portale foundry. Altre informazioni sul nuovo portale.

Nota

I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.

Il fine-tuning personalizza un modello di intelligenza artificiale preaddestrato con formazione aggiuntiva su un compito o un set di dati specifico per migliorare le prestazioni, aggiungere nuove competenze o migliorare l'accuratezza. Il risultato è un nuovo modello GenAI ottimizzato basato sugli esempi forniti. Questo articolo illustra i concetti chiave e le decisioni da prendere prima di ottimizzare, incluso il tipo di ottimizzazione più adatto per il caso d'uso e i criteri di selezione dei modelli in base alle tecniche di training per l'ottimizzazione e il modo in cui è utile nel percorso GenAI.

Se si sta iniziando a ottimizzare correttamente, è consigliabile usare GPT-4.1 per competenze complesse come la traduzione della lingua, l'adattamento del dominio o la generazione avanzata di codice. Per attività più incentrate (ad esempio classificazione, analisi del sentiment o moderazione del contenuto) o quando si distilla la conoscenza da un modello più sofisticato, iniziare con GPT-4.1-mini per un'iterazione più rapida e ridurre i costi.

Casi d'uso principali per l'ottimizzazione

L'ottimizzazione consente di personalizzare i modelli linguistici per applicazioni e domini specifici. Alcuni casi d'uso chiave includono:

  • Specializzazione dominio: Adattare un modello linguistico per un campo specializzato, ad esempio medicina, finanza o legge, in cui la conoscenza e la terminologia specifiche del dominio sono importanti. Insegnare al modello di comprendere il gergo tecnico e fornire risposte più accurate.
  • Prestazioni attività: Ottimizzare un modello per un'attività specifica, ad esempio l'analisi del sentiment, la generazione di codice, la traduzione o il riepilogo. È possibile migliorare significativamente le prestazioni di un modello più piccolo in un'applicazione specifica, rispetto a un modello per utilizzo generico.
  • Stile e tono: Insegnare al modello di corrispondere al proprio stile di comunicazione preferito, ad esempio adattare il modello per la scrittura aziendale formale, la voce specifica del marchio o la scrittura tecnica.
  • Istruzione seguente: Migliorare la capacità del modello di seguire requisiti di formattazione specifici, istruzioni in più passaggi o output strutturati. Nei quadri di lavoro multi-agente, insegnare al modello come scegliere l'agente giusto per il compito giusto.
  • Conformità e sicurezza: Eseguire il training di un modello ottimizzato per rispettare i criteri dell'organizzazione, i requisiti normativi o altre linee guida specifiche per l'applicazione.
  • Adattamento linguistico o culturale: Adattare un modello linguistico per una lingua, un dialetto o un contesto culturale specifico che potrebbe non essere ben rappresentato nei dati di training. L'ottimizzazione è particolarmente utile quando un modello per utilizzo generico non soddisfa i requisiti specifici, ma si vuole evitare i costi e la complessità del training di un modello da zero.

Il calcolo serverless o gestito?

Prima di scegliere un modello, è importante selezionare il prodotto di ottimizzazione corrispondente alle proprie esigenze. Foundry di Microsoft offre due modalità principali per l'ottimizzazione fine: serverless e calcolo gestito.

  • Serverless consente di personalizzare i modelli utilizzando la nostra capacità con una tariffazione basata sul consumo a partire da 1,70 $ per milione di token di input. Ottimizziamo la formazione per velocità e scalabilità gestendo tutta l'infrastruttura. Questo approccio non richiede quote GPU e fornisce accesso esclusivo ai modelli OpenAI, anche se con meno opzioni di iperparametri rispetto al calcolo gestito.
  • Il calcolo gestito offre una gamma più ampia di modelli e personalizzazione avanzata tramite AzureML, ma richiede di fornire macchine virtuali personalizzate per il training e l'hosting. Sebbene ciò offra il controllo completo sulle risorse, richiede quote elevate di cui molti clienti sono privi, non include modelli OpenAI e non può sfruttare le ottimizzazioni multi-tenancy.

Per la maggior parte dei clienti, serverless offre il miglior equilibrio tra facilità d'uso, efficienza dei costi e accesso ai modelli Premium. Questo documento è incentrato sulle opzioni serverless.

Per trovare i passaggi per ottimizzare un modello in Foundry, vedere Ottimizzare i modelli in Foundry o Ottimizzare i modelli usando il calcolo gestito. Per indicazioni dettagliate sull'ottimizzazione openAI, vedere Fine-tune Azure OpenAI Models.

Tecniche di training

Dopo aver identificato un caso d'uso, è necessario selezionare la tecnica di training appropriata, che guida il modello selezionato per il training. Sono disponibili tre tecniche di training per ottimizzare i modelli:

  • Fine-Tuning Supervisato (SFT): Tecnica di base che addestra il modello su coppie di input-output, insegnandogli a produrre risposte desiderate per input specifici.

    • Ideale per: La maggior parte dei casi d'uso, tra cui la specializzazione del dominio, le prestazioni delle attività, lo stile e il tono, le istruzioni seguenti e l'adattamento del linguaggio.
    • Quando usare: Iniziare da qui per la maggior parte dei progetti. SFT affronta il numero più ampio di scenari di ottimizzazione e offre risultati affidabili con dati di training di input-output chiari.
    • Modelli supportati: GPT 4o, 4o-mini, 4.1, 4.1-mini, 4.1-nano; Llama 2 e Llama 3.1; Phi 4, Phi-4-mini-instruct; Mistral Nemo, Ministral-3B, Mistral Large (2411); NTT Tsuzumi-7b
  • Ottimizzazione delle preferenze dirette (DPO): Esegue il training dei modelli per preferire determinati tipi di risposte rispetto ad altri imparando dal feedback comparativo, senza richiedere un modello di ricompensa separato.

    • Ideale per: Miglioramento della qualità della risposta, della sicurezza e dell'allineamento con le preferenze umane.
    • Quando usare: Quando si hanno esempi di output preferiti e non preferiti o quando è necessario ottimizzare per qualità soggettive come utilità, innocuità o stile. I casi d'uso includono l'adattamento di modelli a uno stile e un tono specifici oppure l'adattamento di un modello alle preferenze culturali.
    • Modelli supportati: GPT 4o, 4.1, 4.1-mini, 4.1 nano
  • Reinforcement Fine-Tuning (RFT): Utilizza l'apprendimento per rinforzo per ottimizzare i modelli sulla base dei segnali di ricompensa, consentendo obiettivi di ottimizzazione più complessi.

    • Ideale per: Scenari di ottimizzazione complessi in cui le semplici coppie di input-output non sono sufficienti.
    • Quando usare: RFT è ideale per domini obiettivo come matematica, chimica e fisica in cui ci sono risposte chiare e sbagliate e il modello mostra già alcune competenze. Funziona meglio quando fare una supposizione fortunata è difficile e gli esperti valutatori concordano costantemente su una risposta non ambigua e corretta. Richiede più competenze di Machine Learning per implementare in modo efficace.
    • Modelli supportati: o4-mini

La maggior parte dei clienti deve iniziare con SFT, in quanto risolve il numero più ampio di casi d'uso di ottimizzazione.

Seguire questo collegamento per visualizzare e scaricare set di dati example per provare l'ottimizzazione.

Modalità di training

  • Da testo a testo (tutti i modelli): Tutti i modelli supportano l'ottimizzazione standard da testo a testo per le attività basate sulla lingua.
  • Visione e testo (GPT 4o, 4.1): Alcuni modelli supportano l'ottimizzazione della visione, accettando sia input di immagine che di testo durante la produzione di output di testo. I casi d'uso per l'ottimizzazione della visione includono l'interpretazione di grafici, grafici e dati visivi; moderazione del contenuto; valutazione della qualità visiva; elaborazione di documenti con testo misto e immagine; e la catalogazione dei prodotti dalle fotografie.

Tabella di confronto dei modelli

Questa tabella offre una panoramica dei modelli disponibili

Modello Modalità Tecniche Punti di forza
GPT 4.1 Testo, Visione SFT, DPO Prestazioni superiori su compiti complessi, comprensione approfondita
GPT 4.1 mini Testo SFT, DPO Iterazione veloce, conveniente, valida per attività semplici
GPT 4.1 nano Testo SFT, DPO Utilizzo rapido, conveniente e minimo delle risorse
GPT 4o Testo, Visione SFT, DPO Modello di punta della generazione precedente per attività complesse
GPT 4o-mini Testo SFT Modello di piccole dimensioni di generazione precedente per attività semplici
o4-mini Testo RFT Modello di ragionamento adatto per attività logiche complesse
Phi 4 Testo SFT Opzione conveniente per attività più semplici
Ministral 3B Testo SFT Opzione a basso costo per un'iterazione più rapida
Mistral Nemo Testo SFT Bilanciare le dimensioni e le funzionalità
Mistral Large (2411) Testo SFT Modello Mistral più idoneo, migliore per le attività complesse

Introduzione all'ottimizzazione

  1. Definire il caso d'uso: Identificare se è necessario un modello per utilizzo generico altamente idoneo (ad esempio GPT 4.1), un modello più piccolo a basso costo per un'attività specifica (GPT 4.1-mini o nano) o un modello di ragionamento complesso (o4-mini).
  2. Preparare i dati: Iniziare con 50-100 esempi di alta qualità per i test iniziali, con scalabilità fino a 500 esempi per i modelli di produzione.
  3. Scegliere la tecnica: Iniziare con Fine-Tuning supervisionato (SFT) a meno che non siano presenti requisiti specifici per i modelli di ragionamento/RFT.
  4. Eseguire l'iterazione e valutare: L'ottimizzazione è un processo iterativo: iniziare con una baseline, misurare le prestazioni e perfezionare l'approccio in base ai risultati.

Per trovare i passaggi per ottimizzare un modello in Foundry, vedere Fine-tune Models in Foundry, Fine-tune Azure OpenAI Models o Fine-tune models using managed compute.

disponibilità Fine-Tuning

Ora che si sa quando usare l'ottimizzazione per il caso d'uso, è possibile passare a Microsoft Foundry per trovare i modelli disponibili per ottimizzare.

Per ottimizzare un modello Foundry usando Serverless , è necessario disporre di un hub o di un progetto nell'area in cui il modello è disponibile per l'ottimizzazione. Per informazioni dettagliate sulla disponibilità del modello e dell'area, vedere Disponibilità dell'area per i modelli nella distribuzione di API serverless e Come creare un progetto basato su Hub per creare il progetto.

To ottimizzare un modello OpenAI è possibile usare una risorsa OpenAI Azure, una risorsa Foundry o un progetto predefinito o un hub/progetto. GPT 4.1, 4.1 mini, 4.1 nano e GPT 4o, 4omini sono disponibili in tutte le aree con training globale. Per la disponibilità a livello di area, vedere Disponibilità e limiti per la messa a punto fine di Azure OpenAI. Per istruzioni sulla creazione di un nuovo progetto, vedere Creare un progetto per Foundry .

Per ottimizzare un modello usando l'ambiente di calcolo gestito , è necessario disporre di una quota hub/progetto e della macchina virtuale disponibile per il training e l'inferenza. Per altre informazioni su come usare l'ottimizzazione dei modelli di calcolo gestito (anteprima), vedere Ottimizzare i modelli usando il calcolo gestito (anteprima) e Come creare un progetto basato su hub per creare il progetto.