Concetti del modello di chat con visione artificiale (versione classica)

Si applica solo a:Portale di Foundry (versione classica). Questo articolo non è disponibile per il nuovo portale foundry. Altre informazioni sul nuovo portale.

Nota

I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.

I modelli di chat abilitati per la visione sono modelli di chat di grandi dimensioni (LMM) sviluppati da OpenAI che analizzano le immagini e forniscono risposte testuali alle domande su di esse. Incorporano sia l'elaborazione del linguaggio naturale che la comprensione visiva. Questa guida fornisce informazioni dettagliate sulle relative funzionalità e limitazioni. Per visualizzare i modelli che supportano l'input dell'immagine, vedere la pagina Modelli.

Per provare i modelli di chat abilitati per la visione artificiale, vedere la guida introduttiva.

Chat dotate di funzionalità visiva

I modelli abilitati per la visione rispondono a domande generali su ciò che è presente nelle immagini caricate.

Limitazioni di input

Questa sezione descrive le limitazioni dei modelli di chat abilitati per la visione.

Supporto delle immagini

Dimensioni massime dell'immagine di input: la dimensione massima per le immagini di input è limitata a 20 MB.
Accuratezza a bassa risoluzione: quando le immagini vengono analizzate usando l'impostazione "a bassa risoluzione", consente risposte più veloci e usa meno token di input per determinati casi d'uso. Tuttavia, ciò potrebbe influire sull'accuratezza del riconoscimento dell'oggetto e del testo all'interno dell'immagine.
Limitazione della chat immagine: quando si caricano immagini nel portale Microsoft Foundry o all'API, siete limitati a 10 immagini per ogni chiamata di chat.

Informazioni speciali sui prezzi

Importante

Il contenuto seguente è solo un esempio e i prezzi sono soggetti a modifiche in futuro.

I modelli abilitati per la visione accumulano addebiti come altri modelli di chat OpenAI Azure. Si paga una tariffa per token per i prompt e i completamenti, descritti in dettaglio nella pagina Prezzi. Gli addebiti di base e altre funzionalità sono descritti di seguito:

I prezzi di base per GPT-4 Turbo con Visione sono:

Input: $0,01 per 1.000 token
Output: $0,03 per 1.000 token

Vedere la sezione Token della panoramica per informazioni sul modo in cui il testo e le immagini vengono convertiti in token.

Esempio di calcolo del prezzo dell'immagine

Per un caso d'uso tipico, acquisire un'immagine con oggetti visibili e testo, e 100 token per l'input di prompt. Quando il servizio elabora il prompt, genera 100 token di output. Nell'immagine è possibile rilevare sia testo che oggetti. Il prezzo di questa transazione sarà:

Elemento	Dettaglio	Costo
Input del prompt testuale	100 token di testo	$ 0,001
Esempio di input immagine (vedere token Immagine)	170 + 85 token di immagine	$ 0,00255
Funzionalità avanzate dei componenti aggiuntivi per OCR	$ 1,50 / 1.000 transazioni	$ 0,0015
Funzionalità avanzate del modulo aggiuntivo per l'ancoraggio di oggetti	$ 1,50 / 1.000 transazioni	$ 0,0015
Token di output	100 token (supposti)	$ 0,003
Totale		$ 0,00955

Per iniziare a usare i modelli abilitati per la visione, seguire la guida introduttiva.
Per un'analisi più approfondita delle API, seguire la guida pratica.
Consultare le informazioni di riferimento sulle API di completamenti e incorporamenti

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-01