Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Si applica solo a:Portale di Foundry (versione classica). Questo articolo non è disponibile per il nuovo portale foundry.
Altre informazioni sul nuovo portale.
Nota
I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.
I modelli di chat abilitati per la visione sono modelli di chat di grandi dimensioni (LMM) sviluppati da OpenAI che analizzano le immagini e forniscono risposte testuali alle domande su di esse. Incorporano sia l'elaborazione del linguaggio naturale che la comprensione visiva. Questa guida fornisce informazioni dettagliate sulle relative funzionalità e limitazioni. Per visualizzare i modelli che supportano l'input dell'immagine, vedere la pagina Modelli.
Per provare i modelli di chat abilitati per la visione artificiale, vedere la guida introduttiva.
Chat dotate di funzionalità visiva
I modelli abilitati per la visione rispondono a domande generali su ciò che è presente nelle immagini caricate.
Limitazioni di input
Questa sezione descrive le limitazioni dei modelli di chat abilitati per la visione.
Supporto delle immagini
- Dimensioni massime dell'immagine di input: la dimensione massima per le immagini di input è limitata a 20 MB.
- Accuratezza a bassa risoluzione: quando le immagini vengono analizzate usando l'impostazione "a bassa risoluzione", consente risposte più veloci e usa meno token di input per determinati casi d'uso. Tuttavia, ciò potrebbe influire sull'accuratezza del riconoscimento dell'oggetto e del testo all'interno dell'immagine.
- Limitazione della chat immagine: quando si caricano immagini nel portale Microsoft Foundry o all'API, siete limitati a 10 immagini per ogni chiamata di chat.
Informazioni speciali sui prezzi
Importante
Il contenuto seguente è solo un esempio e i prezzi sono soggetti a modifiche in futuro.
I modelli abilitati per la visione accumulano addebiti come altri modelli di chat OpenAI Azure. Si paga una tariffa per token per i prompt e i completamenti, descritti in dettaglio nella pagina Prezzi. Gli addebiti di base e altre funzionalità sono descritti di seguito:
I prezzi di base per GPT-4 Turbo con Visione sono:
- Input: $0,01 per 1.000 token
- Output: $0,03 per 1.000 token
Vedere la sezione Token della panoramica per informazioni sul modo in cui il testo e le immagini vengono convertiti in token.
Esempio di calcolo del prezzo dell'immagine
Per un caso d'uso tipico, acquisire un'immagine con oggetti visibili e testo, e 100 token per l'input di prompt. Quando il servizio elabora il prompt, genera 100 token di output. Nell'immagine è possibile rilevare sia testo che oggetti. Il prezzo di questa transazione sarà:
| Elemento | Dettaglio | Costo |
|---|---|---|
| Input del prompt testuale | 100 token di testo | $ 0,001 |
| Esempio di input immagine (vedere token Immagine) | 170 + 85 token di immagine | $ 0,00255 |
| Funzionalità avanzate dei componenti aggiuntivi per OCR | $ 1,50 / 1.000 transazioni | $ 0,0015 |
| Funzionalità avanzate del modulo aggiuntivo per l'ancoraggio di oggetti | $ 1,50 / 1.000 transazioni | $ 0,0015 |
| Token di output | 100 token (supposti) | $ 0,003 |
| Totale | $ 0,00955 |
Contenuto correlato
- Per iniziare a usare i modelli abilitati per la visione, seguire la guida introduttiva.
- Per un'analisi più approfondita delle API, seguire la guida pratica.
- Consultare le informazioni di riferimento sulle API di completamenti e incorporamenti