Modelos de geração de imagem

Concluído

Dica

Consulte a guia Texto e imagens para obter mais detalhes!

Modelos capazes de visão geralmente associam informações visuais em uma imagem ao texto correspondente apropriado. Alguns modelos são projetados para executar esse processo ao contrário, gerando imagens que correspondem a descrições de texto.

Usando modelos de geração de imagem do Foundry

O Microsoft Foundry inclui modelos que dão suporte à inferência de texto em imagem, que você pode usar para gerar saída visual.

Para a maioria dos novos projetos, a Microsoft recomenda começar com a família GPT-Image-1, especialmente GPT-Image-1.5, devido à sua qualidade aprimorada, ao suporte de edição e à preparação da empresa.

Exemplos comuns de modelos de geração de imagem na Foundry incluem:

  • GPT-Image-1.5: GPT-Image-1.5 é o modelo de geração de imagem mais recente e avançado disponível no Microsoft Foundry. Ele foi projetado para a criação e edição de imagens de alta fidelidade, em nível empresarial, com alinhamento preciso das instruções e consistência aprimorada entre iterações. O modelo dá suporte à conversão de texto em imagem, conversão de imagem para imagem e edição precisa de imagens, tornando-o adequado para fluxos de trabalho de identidade visual, marketing e design em que a precisão visual importa.

  • GPT-Image-1: GPT-Image-1 é um modelo de geração de imagem de uso geral poderoso que se baseia nos recursos de modelos de DALL-E anteriores. Ele dá suporte à geração de texto para imagem, variações de imagem e edição precisa de imagem. Normalmente, ele é usado para aplicativos criativos, criação de protótipos e geração de conteúdo visual. O GPT-Image-1 é amplamente compatível com as APIs e ferramentas do Foundry, incluindo a API de Respostas e as ferramentas do agente.

  • GPT-Image-1-Mini: GPT-Image-1-Mini é uma versão mais leve e mais econômica do GPT-Image-1. Ele dá suporte às mesmas tarefas principais de geração de imagem, mas é otimizado para cenários em que a latência mais baixa ou o custo reduzido são mais importantes do que a fidelidade visual máxima. Esse modelo é uma boa opção para experimentação, ferramentas internas ou geração de imagens de alto volume.

Todos esses modelos de geração de imagem podem ser:

  • Implantado em um recurso do Foundry (Azure OpenAI)
  • Testado no Foundry Playground
  • Acessado programaticamente usando a API de Respostas OpenAI ou APIs de geração de imagem

Observação

Você também pode acessar modelos de geração de imagem de terceiros no Foundry. Por exemplo, o FLUX é uma família de modelos de geração de imagem de software livre criados pelo Black Forest Labs. Elas foram projetadas para produzir imagens fotorrealistas, com estilo flexível e de alta qualidade a partir de prompts de texto.

Geração de imagem no playground da Foundry

Você pode implantar um modelo com capacidade de visão e testá-lo no playground do portal do Foundry. Para testar o modelo, você pode descrever a imagem que deseja criar. E depois de alguns minutos, uma imagem que corresponde à sua descrição é gerada.

Captura de tela da geração de imagens no Foundry Playground.

Captura de tela do exemplo de código no playground do Foundry.

Usando o SDK do Python do OpenAI para geração de imagem

Você pode escrever código para criar um aplicativo que usa um modelo de geração de imagem usando a classe de imagens da API OpenAI do Azure. A classe de imagens OpenAI no SDK do Python OpenAI permite que você gere novas imagens e edite imagens existentes. Você pode usar o SDK do OpenAI para Python chamando o endpoint da OpenAI Images API por meio de uma interface em Python.

A capacidade de gerar dinamicamente imagens originais a partir de descrições pode ser imensamente valiosa em cenários que incluem mídia, publicação e criação de conteúdo.

Para gerar imagens com o SDK do Python OpenAI, você precisa:

  • Um recurso de fundição
  • Um modelo com capacidade de visão implantado (o nome da implantação é o que você passa como MODEL_NAME)
  • Autenticação por meio da chave de API ou da ID do Microsoft Entra
  • Chamadas à API de Respostas OpenAI que incluem entrada de imagem (URL ou URL de dados base64)

Observação

Base64 refere-se ao fato de que arquivos como imagens são binários (bytes brutos). JSON e URLs são somente texto. A codificação Base64 converte dados binários em texto ASCII seguro, permite que arquivos binários sejam inseridos dentro de JSON ou URLs.

Por exemplo, considere o seguinte código Python:

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

Em seguida, saiba como usar modelos de geração de vídeo da Foundry.