Modelos de raciocínio Azure OpenAI

Os modelos de raciocínio Azure OpenAI foram concebidos para abordar tarefas de raciocínio e resolução de problemas com maior foco e capacidade. Estes modelos dedicam mais tempo a processar e compreender o pedido do utilizador, tornando-os excecionalmente fortes em áreas como ciência, programação e matemática em comparação com iterações anteriores.

Principais capacidades dos modelos de raciocínio:

Geração Complexa de Código: Capaz de gerar algoritmos e lidar com tarefas avançadas de programação para apoiar programadores.
Resolução Avançada de Problemas: Ideal para sessões abrangentes de brainstorming e para enfrentar desafios multifacetados.
Comparação de Documentos Complexos: Perfeita para analisar contratos, processos ou documentos legais para identificar diferenças subtis.
Seguir Instruções e Gestão de Fluxos de Trabalho: Particularmente eficaz para gerir fluxos de trabalho que exigem contextos mais curtos.

Pré-requisitos

Um modelo de raciocínio Azure OpenAI implementado.
Se usares os exemplos do REST:
- Instala a CLI do Azure. Para mais informações, consulte Instale o CLI do Azure.
- Inicie sessão com az login, depois gere um token portador e armazene-o na AZURE_OPENAI_AUTH_TOKEN variável de ambiente.
```
az account get-access-token --resource https://cognitiveservices.azure.com --query accessToken -o tsv
```

Utilização

Estes modelos não suportam atualmente o mesmo conjunto de parâmetros que outros modelos que utilizam a API de completação de chat.

API de completação de chat

using Azure.Identity;
using OpenAI;
using OpenAI.Chat;
using System.ClientModel.Primitives;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://ai.azure.com/.default");

ChatClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {

        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

ChatCompletionOptions options = new ChatCompletionOptions
{
    MaxOutputTokenCount = 100000
};

ChatCompletion completion = client.CompleteChat(
         new DeveloperChatMessage("You are a helpful assistant"),
         new UserChatMessage("Tell me about the bitter lesson")
    );

Console.WriteLine($"[ASSISTANT]: {completion.Content[0].Text}");

Microsoft Entra ID:

Se é novo a usar Microsoft Entra ID para autenticação, veja Como configurar Azure OpenAI em Microsoft Foundry Models com autenticação Microsoft Entra ID.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.chat.completions.create(
  model="YOUR-DEPLOYMENT-NAME", # replace with your model deployment name
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

Chave API:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
)

response = client.chat.completions.create(
  model="YOUR-DEPLOYMENT-NAME", # replace with your model deployment name
    messages=[
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000

)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
      "model": "gpt-5",
      "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "What steps should I think about when writing my first Python API?"}
      ],
      "max_completion_tokens": 1000
  }'

Resultado da API de Conclusões de Chat do Python:

{
  "id": "chatcmpl-AEj7pKFoiTqDPHuxOcirA9KIvf3yz",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "Writing your first Python API is an exciting step in developing software that can communicate with other applications. An API (Application Programming Interface) allows different software systems to interact with each other, enabling data exchange and functionality sharing. Here are the steps you should consider when creating your first Python API...truncated for brevity.",
        "refusal": null,
        "role": "assistant",
        "function_call": null,
        "tool_calls": null
      },
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "protected_material_code": {
          "filtered": false,
          "detected": false
        },
        "protected_material_text": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ],
  "created": 1728073417,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_503a95a7d8",
  "usage": {
    "completion_tokens": 1843,
    "prompt_tokens": 20,
    "total_tokens": 1863,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 448
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 0
    }
  },
  "prompt_filter_results": [
    {
      "prompt_index": 0,
      "content_filter_results": {
        "custom_blocklists": {
          "filtered": false
        },
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "jailbreak": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ]
}

Esforço de raciocínio

Nota

Os modelos de raciocínio têm reasoning_tokens como parte de completion_tokens_details na resposta do modelo. Estes são tokens ocultos que não são devolvidos como parte do conteúdo da resposta à mensagem, mas são usados pelo modelo para ajudar a gerar uma resposta final ao seu pedido. reasoning_effort pode ser definido como low, medium, ou high para todos os modelos de raciocínio exceto o1-mini. Quanto maior for a definição de esforço, mais tempo o modelo passará a processar o pedido, o que geralmente resultará num maior número de reasoning_tokens.

Mensagens do programador

As mensagens do programador ("role": "developer") são funcionalmente iguais às mensagens do sistema.

Adicionar uma mensagem de programador ao exemplo de código anterior seria o seguinte:


using Azure.Identity;
using OpenAI;
using OpenAI.Chat;
using System.ClientModel.Primitives;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://ai.azure.com/.default");

ChatClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {

        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

ChatCompletionOptions options = new ChatCompletionOptions
{
    ReasoningEffortLevel = ChatReasoningEffortLevel.Low,
    MaxOutputTokenCount = 100000
};

ChatCompletion completion = client.CompleteChat(
         new DeveloperChatMessage("You are a helpful assistant"),
         new UserChatMessage("Tell me about the bitter lesson")
    );

Console.WriteLine($"[ASSISTANT]: {completion.Content[0].Text}");

Microsoft Entra ID:

Se és novo a usar Microsoft Entra ID para autenticação, vê Como configurar Azure OpenAI com autenticação Microsoft Entra ID.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
  DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(
  base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=token_provider,
)

response = client.chat.completions.create(
  model="YOUR-DEPLOYMENT-NAME",  # replace with your model deployment name
  messages=[
    {"role": "developer", "content": "You are a helpful assistant."},
    {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
  ],
  max_completion_tokens=5000,
  reasoning_effort="medium",  # low, medium, or high
)

print(response.model_dump_json(indent=2))

Chave API:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
    base_url="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
)

response = client.chat.completions.create(
    model="gpt-5-mini", # replace with the model deployment name of your o1 deployment.
    messages=[
        {"role": "developer","content": "You are a helpful assistant."}, # optional equivalent to a system message for reasoning models 
        {"role": "user", "content": "What steps should I think about when writing my first Python API?"},
    ],
    max_completion_tokens = 5000,
    reasoning_effort = "medium" # low, medium, or high
)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
      "model": "gpt-5",
      "messages": [
        {"role": "developer", "content": "You are a helpful assistant."},
          {"role": "user", "content": "What steps should I think about when writing my first Python API?"}
      ],
      "max_completion_tokens": 1000,
      "reasoning_effort": "medium"
  }'

Resultado da API de Conclusões de Chat do Python:

{
  "id": "chatcmpl-CaODNsQOHoRLcb9JVSKYY1e2Iss5s",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "Here’s a practical, beginner‑friendly checklist to guide you through writing your first Python API, from idea to production.\n\n1) Clarify goals and constraints\n- Who will use it (internal team, public), what problems it solves, expected traffic, latency requirements.\n- Resources you’ll expose (users, orders, etc.) and core operations.\n- Non‑functional needs: security, compliance, uptime, scalability.\n\n2) Choose your API style\n- REST (most common for CRUD and simple integrations).\n- GraphQL (flexible queries, more complex to secure/monitor).\n- gRPC (high‑performance, strongly typed, good for service‑to‑service).\n- For a first API, REST + JSON is usually best.\n\n3) Design the contract first\n- Draft an OpenAPI/Swagger spec: endpoints, request/response schemas, status codes, error model.\n- Decide naming conventions, pagination, filtering, sorting.\n- Define consistent time/date format (ISO‑8601, UTC), ID format, and field casing.\n- Plan versioning strategy (e.g., /v1) and deprecation policy.\n\n4) Plan security and auth\n- Pick auth: API keys for simple internal use; OAuth2/JWT for user auth; mTLS for service‑to‑service.\n- CORS policy for browsers; HTTPS everywhere; security headers.\n- Validate all inputs; avoid leaking stack traces; define rate limits and quotas.\n\n5) Pick your Python stack\n- Frameworks: FastAPI (great typing, validation, auto docs), Flask (minimal), Django REST Framework (batteries included).\n- ASGI/WSGI server: Uvicorn or Gunicorn.\n- Data layer: PostgreSQL + SQLAlchemy/Django ORM; migrations with Alembic/Django migrations.\n- Caching: Redis (optional).\n- Background jobs: Celery/RQ (if needed).\n\n6) Set up the project\n- Create a virtual environment; choose dependency management (pip, Poetry).\n- Establish project structure (app, api, models, services, tests).\n- Add linting/formatting/type checks: black, isort, flake8, mypy; pre‑commit hooks.\n- Configuration via environment variables; secrets via a manager (not in code).\n\n7) Implement core functionality\n- Build endpoints that match your spec; keep business logic in a service layer, not in route handlers.\n- Schema validation (Pydantic with FastAPI, Marshmallow for Flask).\n- Consistent responses and errors; use clear status codes (201 create, 204 no content, 400/404/409/422, 500).\n- Pagination and filtering; idempotency for certain POST operations; ETags/conditional requests if useful.\n\n8) Error handling and an error model\n- Define a standard error body (code, message, details, correlation_id).\n- Log errors with context; don’t expose internal details to clients.\n\n9) Testing strategy\n- Unit tests for services/validators.\n- Integration tests for endpoints (pytest + httpx/requests) with a test database.\n- Contract tests to assert the API matches the OpenAPI spec.\n- Mock external services; measure coverage and focus on critical paths.\n\n10) Documentation and developer experience\n- Auto‑generated docs (FastAPI provides Swagger/ReDoc).\n- Write examples for each endpoint; onboarding and usage notes.\n- Keep a changelog and release notes.\n\n11) Observability and reliability\n- Structured logging (JSON), include request IDs/correlation IDs.\n- Metrics (requests, latency, error rates), health/readiness endpoints.\n- Tracing (OpenTelemetry) if you have multiple services.\n- Error reporting (Sentry or similar).\n\n12) Deployment and operations\n- Containerize with Docker; follow 12‑factor app principles.\n- CI/CD pipeline: run tests, build image, deploy, run migrations.\n- Choose hosting (Render, Fly.io, Railway, Heroku, AWS/GCP/Azure).\n- Configure scaling, connection pools, and timeouts; use a reverse proxy if needed.\n\n13) Performance and data concerns\n- Index your database; avoid N+1 queries; use connection pooling.\n- Load test key endpoints; profile hotspots.\n- Caching strategies where appropriate; consider async I/O for high‑concurrency workloads.\n\n14) Versioning and lifecycle management\n- Keep backward compatibility for minor changes; add fields rather than changing semantics.\n- Communicate deprecations; sunset old versions with a timeline.\n\n15) Governance, compliance, and safety\n- Handle PII correctly; data retention and audit logs if required.\n- Least‑privilege DB access; rotate secrets; review third‑party dependencies.\n\nBeginner‑friendly defaults\n- FastAPI + Pydantic + Uvicorn\n- PostgreSQL + SQLAlchemy + Alembic\n- pytest + httpx + coverage\n- black, isort, flake8, mypy, pre‑commit\n- Docker + simple CI (GitHub Actions) + a managed host\n\nCommon pitfalls to avoid\n- Inconsistent status codes or error formats.\n- Weak input validation and missing authentication.\n- Business logic inside route handlers (hard to test/maintain).\n- No migrations or tests; no logging/metrics.\n- Ignoring pagination and timezones; returning unbounded lists.\n\nIf you share whether it’s public vs internal, expected traffic, and preferred framework, I can tailor this to a concrete starter plan and recommended tools.",
        "refusal": null,
        "role": "assistant",
        "annotations": [],
        "audio": null,
        "function_call": null,
        "tool_calls": null
      },
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "protected_material_code": {
          "filtered": false,
          "detected": false
        },
        "protected_material_text": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ],
  "created": 1762788925,
  "model": "gpt-5-2025-08-07",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": null,
  "usage": {
    "completion_tokens": 2919,
    "prompt_tokens": 29,
    "total_tokens": 2948,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 1792,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    }
  },
  "prompt_filter_results": [
    {
      "prompt_index": 0,
      "content_filter_results": {
        "hate": {
          "filtered": false,
          "severity": "safe"
        },
        "jailbreak": {
          "filtered": false,
          "detected": false
        },
        "self_harm": {
          "filtered": false,
          "severity": "safe"
        },
        "sexual": {
          "filtered": false,
          "severity": "safe"
        },
        "violence": {
          "filtered": false,
          "severity": "safe"
        }
      }
    }
  ]
}

Resumo do raciocínio

Ao utilizar os modelos de raciocínio mais recentes com a API Responses , pode usar o parâmetro de resumo de raciocínio para receber resumos do raciocínio da cadeia de pensamento do modelo.

Importante

Tentar extrair raciocínio bruto através de métodos diferentes do parâmetro de resumo de raciocínio não é suportado, pode violar a Política de Uso Aceitável e pode resultar em limitação ou suspensão quando detetado.

using OpenAI;
using OpenAI.Responses;
using System.ClientModel.Primitives;
using Azure.Identity;

#pragma warning disable OPENAI001 //currently required for token based authentication

BearerTokenPolicy tokenPolicy = new(
    new DefaultAzureCredential(),
    "https://ai.azure.com/.default");

OpenAIResponseClient client = new(
    model: "o4-mini",
    authenticationPolicy: tokenPolicy,
    options: new OpenAIClientOptions()
    {
        Endpoint = new Uri("https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1")
    }
);

OpenAIResponse response = await client.CreateResponseAsync(
    userInputText: "What's the optimal strategy to win at poker?",
    new ResponseCreationOptions()
    {
        ReasoningOptions = new ResponseReasoningOptions()
        {
            ReasoningEffortLevel = ResponseReasoningEffortLevel.High,
            ReasoningSummaryVerbosity = ResponseReasoningSummaryVerbosity.Auto,
        },
    });

// Get the reasoning summary from the first OutputItem (ReasoningResponseItem)
Console.WriteLine("=== Reasoning Summary ===");
foreach (var item in response.OutputItems)
{
    if (item is ReasoningResponseItem reasoningItem)
    {
        foreach (var summaryPart in reasoningItem.SummaryParts)
        {
            if (summaryPart is ReasoningSummaryTextPart textPart)
            {
                Console.WriteLine(textPart.Text);
            }
        }
    }
}

Console.WriteLine("\n=== Assistant Response ===");
// Get the assistant's output
Console.WriteLine(response.GetOutputText());

Vai precisar de atualizar a biblioteca cliente OpenAI para aceder aos parâmetros mais recentes.

pip install openai --upgrade

Microsoft Entra ID:

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.responses.create(
    input="Tell me about the curious case of neural text degeneration",
    model="gpt-5", # replace with model deployment name
    reasoning={
        "effort": "medium",
        "summary": "auto" # auto, concise, or detailed, gpt-5 series do not support concise 
    },
    text={
        "verbosity": "low" # New with GPT-5 models
    }
)

print(response.model_dump_json(indent=2))

Chave API:

import os
from openai import OpenAI

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=os.getenv("AZURE_OPENAI_API_KEY")  
)

response = client.responses.create(
    input="Tell me about the curious case of neural text degeneration",
    model="gpt-5", # replace with model deployment name
    reasoning={
        "effort": "medium",
        "summary": "auto" # auto, concise, or detailed, gpt-5 series do not support concise 
    },
    text={
        "verbosity": "low" # New with GPT-5 models
    }
)

print(response.model_dump_json(indent=2))

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
 -d '{
     "model": "gpt-5",
     "input": "Tell me about the curious case of neural text degeneration",
     "reasoning": {"summary": "auto"},
     "text": {"verbosity": "low"}
    }'

{
  "id": "resp_689a0a3090808190b418acf12b5cc40e0fc1c31bc69d8719",
  "created_at": 1754925616.0,
  "error": null,
  "incomplete_details": null,
  "instructions": null,
  "metadata": {},
  "model": "gpt-5",
  "object": "response",
  "output": [
    {
      "id": "rs_689a0a329298819095d90c34dc9b80db0fc1c31bc69d8719",
      "summary": [],
      "type": "reasoning",
      "encrypted_content": null,
      "status": null
    },
    {
      "id": "msg_689a0a33009881909fe0fcf57cba30200fc1c31bc69d8719",
      "content": [
        {
          "annotations": [],
          "text": "Neural text degeneration refers to the ways language models produce low-quality, repetitive, or vacuous text, especially when generating long outputs. It’s “curious” because models trained to imitate fluent text can still spiral into unnatural patterns. Key aspects:\n\n- Repetition and loops: The model repeats phrases or sentences (“I’m sorry, but...”), often due to high-confidence tokens reinforcing themselves.\n- Loss of specificity: Vague, generic, agreeable text that avoids concrete details.\n- Drift and contradiction: The output gradually departs from context or contradicts itself over long spans.\n- Exposure bias: During training, models see gold-standard prefixes; at inference, they must condition on their own imperfect outputs, compounding errors.\n- Likelihood vs. quality mismatch: Maximizing token-level likelihood doesn’t align with human preferences for diversity, coherence, or factuality.\n- Token over-optimization: Frequent, safe tokens get overused; certain phrases become attractors.\n- Entropy collapse: With greedy or low-temperature decoding, the distribution narrows too much, causing repetitive, low-entropy text.\n- Length and beam search issues: Larger beams or long generations can favor bland, repetitive sequences (the “likelihood trap”).\n\nCommon mitigations:\n\n- Decoding strategies:\n  - Top-k, nucleus (top-p), or temperature sampling to keep sufficient entropy.\n  - Typical sampling and locally typical sampling to avoid dull but high-probability tokens.\n  - Repetition penalties, presence/frequency penalties, no-repeat n-grams.\n  - Contrastive decoding (and variants like DoLa) to filter generic continuations.\n  - Min/max length, stop sequences, and beam search with diversity/penalties.\n\n- Training and alignment:\n  - RLHF/DPO to better match human preferences for non-repetitive, helpful text.\n  - Supervised fine-tuning on high-quality, diverse data; instruction tuning.\n  - Debiasing objectives (unlikelihood training) to penalize repetition and banned patterns.\n  - Mixture-of-denoisers or latent planning to improve long-range coherence.\n\n- Architectural and planning aids:\n  - Retrieval-augmented generation to ground outputs.\n  - Tool use and structured prompting to constrain drift.\n  - Memory and planning modules, hierarchical decoding, or sentence-level control.\n\n- Prompting tips:\n  - Ask for concise answers, set token limits, and specify structure.\n  - Provide concrete constraints or content to reduce generic filler.\n  - Use “say nothing if uncertain” style instructions to avoid vacuity.\n\nRepresentative papers/terms to search:\n- Holtzman et al., “The Curious Case of Neural Text Degeneration” (2020): nucleus sampling.\n- Welleck et al., “Neural Text Degeneration with Unlikelihood Training.”\n- Li et al., “A Contrastive Framework for Decoding.”\n- Su et al., “DoLa: Decoding by Contrasting Layers.”\n- Meister et al., “Typical Decoding.”\n- Ouyang et al., “Training language models to follow instructions with human feedback.”\n\nIn short, degeneration arises from a mismatch between next-token likelihood and human preferences plus decoding choices; careful decoding, training objectives, and grounding help prevent it.",
          "type": "output_text",
          "logprobs": null
        }
      ],
      "role": "assistant",
      "status": "completed",
      "type": "message"
    }
  ],
  "parallel_tool_calls": true,
  "temperature": 1.0,
  "tool_choice": "auto",
  "tools": [],
  "top_p": 1.0,
  "background": false,
  "max_output_tokens": null,
  "max_tool_calls": null,
  "previous_response_id": null,
  "prompt": null,
  "prompt_cache_key": null,
  "reasoning": {
    "effort": "minimal",
    "generate_summary": null,
    "summary": "detailed"
  },
  "safety_identifier": null,
  "service_tier": "default",
  "status": "completed",
  "text": {
    "format": {
      "type": "text"
    }
  },
  "top_logprobs": null,
  "truncation": "disabled",
  "usage": {
    "input_tokens": 16,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 657,
    "output_tokens_details": {
      "reasoning_tokens": 0
    },
    "total_tokens": 673
  },
  "user": null,
  "content_filters": null,
  "store": true
}

Nota

Mesmo quando ativados, não é garantido que os resumos de raciocínio sejam gerados para cada passo/pedido. Isto é um comportamento esperado.

Python lark

Os modelos de raciocínio da série GPT-5 têm a capacidade de chamar um novo custom_tool chamado lark_tool. Esta ferramenta baseia-se em Python lark e pode ser usada para uma restrição mais flexível da saída do modelo.

API de Respostas

{
  "model": "gpt-5-2025-08-07",
  "input": "please calculate the area of a circle with radius equal to the number of 'r's in strawberry",
  "tools": [
    {
      "type": "custom",
      "name": "lark_tool",
      "format": {
        "type": "grammar",
        "syntax": "lark",
        "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
      }
    }
  ],
  "tool_choice": "required"
}

Microsoft Entra ID:

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), "https://ai.azure.com/.default"
)

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",  
  api_key=token_provider,
)

response = client.responses.create(  
    model="gpt-5",  # replace with your model deployment name  
    tools=[  
        {  
            "type": "custom",
            "name": "lark_tool",
            "format": {
                "type": "grammar",
                "syntax": "lark",
                "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
            }
        }  
    ],  
    input=[{"role": "user", "content": "Please calculate the area of a circle with radius equal to the number of 'r's in strawberry"}],  
)  

print(response.model_dump_json(indent=2))

Chave API:

import os
from openai import OpenAI

client = OpenAI(  
  base_url = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/",
  api_key=os.getenv("AZURE_OPENAI_API_KEY")  
)

response = client.responses.create(  
    model="gpt-5",  # replace with your model deployment name  
    tools=[  
        {  
            "type": "custom",
            "name": "lark_tool",
            "format": {
                "type": "grammar",
                "syntax": "lark",
                "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
            }
        }  
    ],  
    input=[{"role": "user", "content": "Please calculate the area of a circle with radius equal to the number of 'r's in strawberry"}],  
)  

print(response.model_dump_json(indent=2))

Saída:

{
  "id": "resp_689a0cf927408190b8875915747667ad01c936c6ffb9d0d3",
  "created_at": 1754926332.0,
  "error": null,
  "incomplete_details": null,
  "instructions": null,
  "metadata": {},
  "model": "gpt-5",
  "object": "response",
  "output": [
    {
      "id": "rs_689a0cfd1c888190a2a67057f471b5cc01c936c6ffb9d0d3",
      "summary": [],
      "type": "reasoning",
      "encrypted_content": null,
      "status": null
    },
    {
      "id": "msg_689a0d00e60c81908964e5e9b2d6eeb501c936c6ffb9d0d3",
      "content": [
        {
          "annotations": [],
          "text": "“strawberry” has 3 r’s, so the radius is 3.\nArea = πr² = π × 3² = 9π ≈ 28.27 square units.",
          "type": "output_text",
          "logprobs": null
        }
      ],
      "role": "assistant",
      "status": "completed",
      "type": "message"
    }
  ],
  "parallel_tool_calls": true,
  "temperature": 1.0,
  "tool_choice": "auto",
  "tools": [
    {
      "name": "lark_tool",
      "parameters": null,
      "strict": null,
      "type": "custom",
      "description": null,
      "format": {
        "type": "grammar",
        "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/",
        "syntax": "lark"
      }
    }
  ],
  "top_p": 1.0,
  "background": false,
  "max_output_tokens": null,
  "max_tool_calls": null,
  "previous_response_id": null,
  "prompt": null,
  "prompt_cache_key": null,
  "reasoning": {
    "effort": "medium",
    "generate_summary": null,
    "summary": null
  },
  "safety_identifier": null,
  "service_tier": "default",
  "status": "completed",
  "text": {
    "format": {
      "type": "text"
    }
  },
  "top_logprobs": null,
  "truncation": "disabled",
  "usage": {
    "input_tokens": 139,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 240,
    "output_tokens_details": {
      "reasoning_tokens": 192
    },
    "total_tokens": 379
  },
  "user": null,
  "content_filters": null,
  "store": true
}

Conclusões de Chat

{
  "messages": [
    {
      "role": "user",
      "content": "Which one is larger, 42 or 0?"
    }
  ],
  "tools": [
    {
      "type": "custom",
      "name": "custom_tool",
      "custom": {
        "name": "lark_tool",
        "format": {
          "type": "grammar",
          "grammar": {
            "syntax": "lark",
            "definition": "start: QUESTION NEWLINE ANSWER\nQUESTION: /[^\\n?]{1,200}\\?/\nNEWLINE: /\\n/\nANSWER: /[^\\n!]{1,200}!/"
          }
        }
      }
    }
  ],
  "tool_choice": "required",
  "model": "gpt-5-2025-08-07"
}

Disponibilidade

Disponibilidade regional

Modelo	Região	Acesso limitado
`gpt-5.5`	Padrão Global: East US2 Suécia Central E.U.A. Centro-Sul Polónia Central Padrão da Zona de Dados: East US2 Centro-Sul dos EUA Polónia Central Suécia Central	Não é necessário pedido de acesso. Pedido de quota é necessário dependendo do nível de quota. As subscrições de Nível 5 e Nível 6 têm quotas por padrão.
`gpt-5.4-mini`	Disponibilidade de modelos	Não é necessário pedido de acesso.
`gpt-5.4-nano`	Disponibilidade de modelos	Não é necessário pedido de acesso.
`gpt-5.4-pro`	Disponibilidade de modelos	Solicitar acesso: Aplicação de modelo de acesso limitado. Se já tiver acesso a um modelo de acesso limitado, não é necessário pedido.
`gpt-5.4`	Disponibilidade de modelos	Solicitar acesso: Aplicação de modelo de acesso limitado. Se já tiver acesso a um modelo de acesso limitado, não é necessário pedido.
`gpt-5.3-codex`	Disponibilidade de modelos	Solicitar acesso: Aplicação de modelo de acesso limitado. Se já tiver acesso a um modelo de acesso limitado, não é necessário pedido.
`gpt-5.2-codex`	Disponibilidade de modelos	Solicitar acesso: Aplicação de modelo de acesso limitado. Se já tiver acesso a um modelo de acesso limitado, não é necessário pedido.
`gpt-5.2`	Disponibilidade de modelos	Solicitar acesso: Aplicação de modelo de acesso limitado. Se já tiver acesso a um modelo de acesso limitado, não é necessário pedido.
`gpt-5.1-codex-max`	Disponibilidade de modelos	O acesso já não é restrito para este modelo.
`gpt-5.1`	Disponibilidade de modelos	O acesso já não é restrito para este modelo.
`gpt-5.1-chat`	Disponibilidade de modelos	Não é necessário pedido de acesso.
`gpt-5.1-codex`	Disponibilidade de modelos	O acesso já não é restrito para este modelo.
`gpt-5.1-codex-mini`	Disponibilidade de modelos	Não é necessário pedido de acesso.
`gpt-5-pro`	Disponibilidade de modelos	O acesso já não é restrito para este modelo.
`gpt-5-codex`	Disponibilidade de modelos	O acesso já não é restrito para este modelo.
`gpt-5`	Disponibilidade de modelos	O acesso já não é restrito para este modelo.
`gpt-5-mini`	Disponibilidade de modelos	Não é necessário pedido de acesso.
`gpt-5-nano`	Disponibilidade de modelos	Não é necessário pedido de acesso.
`o3-pro`	Disponibilidade de modelos	Solicitar acesso: Aplicação de modelo de acesso limitado. Se já tiver acesso a um modelo de acesso limitado, não é necessário pedido.
`codex-mini`	Disponibilidade de modelos	Não é necessário pedido de acesso.
`o4-mini`	Disponibilidade de modelos	Não é necessário pedido de acesso para usar as capacidades principais deste modelo. Solicitar acesso: o4-mini funcionalidade de síntese de raciocínio
`o3`	Disponibilidade de modelos	Pedido de acesso: Aplicação modelo de acesso limitado
`o3-mini`	Disponibilidade de modelos.	O acesso já não é restrito para este modelo.
`o1`	Disponibilidade de modelos.	O acesso já não é restrito para este modelo.

Funcionalidade	GPT-5.5, 2026-04-24	GPT-5.4-nano, 2026-03-17	GPT-5.4-MINI, 2026-03-17	GPT-5.4-Pro	GPT-5.4, 05-03-2026	gpt-5.3-codex, 2026-02-24	gpt-5.2-codex, 2026-01-14	GPT-5.2, 2025-12-11	gpt-5.1-codex-max, 04-12-2025	GPT-5.1, 2025-11-13	gpt-5.1-chat, 2025-11-13	gpt-5.1-codex, 2025-11-13	gpt-5.1-codex-mini, 2025-11-13	GPT-5-PRO, 06-10-2025	GPT-5-Codex, 2025-09-011	GPT-5, 2025-08-07	GPT-5-MINI, 07-08-2025	GPT-5-nano, 07-08-2025
Mensagens do Desenvolvedor	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Saídas Estruturadas	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Janela de Contexto	1,050,000 Entrada: 922,000 Saída: 128,000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	1,050,000 Entrada: 922,000 Saída: 128,000	1,050,000 Entrada: 922,000 Saída: 128,000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	128,000 Entrada: 111.616 Produção: 16.384	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000	400,000 Entrada: 272.000 Produção: 128.000
Esforço de Raciocínio⁷	✅	✅	✅	✅	✅	✅	✅	✅	✅ ⁶	✅ ⁴	✅	✅	✅	✅ ⁵	✅	✅	✅	✅
Entrada de imagem	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
API de Completação de Chat	✅	✅	✅	-	✅	-	-	✅	-	✅	✅	-	-	-	-	✅	✅	✅
API de Respostas	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Funções/Ferramentas	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Chamadas de Ferramenta Paralelas¹	✅	✅	✅	-	✅	✅	✅	✅	✅	✅	✅	✅	✅	-	✅	✅	✅	✅
`max_completion_tokens` ²	✅	✅	✅	-	✅	-	-	✅	-	✅	✅	-	-	-	-	✅	✅	✅
Mensagens do ^{Sistema 3}	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Resumo do raciocínio	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅
Streaming	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	✅	-	✅	✅	✅	✅

¹ Chamadas paralelas de ferramentas não são suportadas quando reasoning_effort está definido como minimal

² Modelos de raciocínio só funcionam com o max_completion_tokens parâmetro quando se utiliza a API de Conversas Completas. Use max_output_tokens com a API de Responses.

³ Os modelos de raciocínio mais recentes suportam mensagens do sistema para facilitar a migração. Não deve usar uma mensagem de programador e uma mensagem de sistema no mesmo pedido de API.

⁴gpt-5.1reasoning_effort por predefinição é none. Ao atualizar a partir de modelos de raciocínio anteriores para gpt-5.1, tenha em mente que pode ser necessário atualizar o código para especificar explicitamente um nível de _reasoning_effort_ se desejar que _reasoning_effort_ ocorra.

⁵gpt-5-pro suporta reasoning_efforthighapenas , este é o valor padrão mesmo quando não é explicitamente passado ao modelo.

⁶gpt-5.1-codex-max adiciona suporte para um novo reasoning_effort nível de xhigh que é o nível mais alto a que o esforço de raciocínio pode ser definido.

⁷gpt-5.2, gpt-5.1, gpt-5.1-codex, gpt-5.1-codex-max, e gpt-5.1-codex-mini suporte 'None' como valor para o reasoning_effort parâmetro. Se quiser usar estes modelos para gerar respostas sem raciocínio, defina reasoning_effort='None'. Esta configuração pode aumentar a velocidade.

NOVAS funcionalidades de raciocínio GPT-5

Destaque	Descrição
`reasoning_effort`	`xhigh` é suportado apenas com `gpt-5.1-codex-max` `minimal` é suportado apenas com os modelos originais de raciocínio GPT-5. `minimal` não é suportado com `gpt-5.1` ou maior ^* Opções: `none`, `minimal`, `low`, `medium`, `high`, `xhigh`
`verbosity`	Um novo parâmetro que proporcione um controlo mais granular sobre a concisão da saída do modelo. Opções:`low`, `medium`, `high`.
`preamble`	Os modelos de raciocínio da série GPT-5 têm a capacidade de gastar mais tempo a "pensar" antes de executar uma chamada de função/ferramenta. Quando este planeamento ocorre, o modelo pode fornecer uma visão sobre os passos de planeamento na resposta do modelo através de um novo objeto chamado objeto `preamble` . A geração de preâmbulos na resposta do modelo não é garantida, embora possa incentivar o modelo usando o parâmetro `instructions` e passando conteúdo como "deve planear extensivamente antes de cada chamada de função". SEMPRE envia o teu plano ao utilizador antes de chamar qualquer função"
Ferramentas permitidas	Pode especificar várias ferramentas abaixo `tool_choice` em vez de apenas uma.
Tipo de ferramenta personalizada	Permite saídas de texto bruto (não-json)
`lark_tool`	Permite usar algumas das capacidades de Python lark para uma restrição mais flexível das respostas do modelo

^* gpt-5-codex também não suporta reasoning_effortminimal.

Para mais informações, recomendamos também a leitura do guia de receitas GPT-5 da OpenAI e do seu guia de funcionalidades GPT-5.

Funcionalidade	Codex-mini, 2025-05-16	O3-Pro, 2025-06-10	O4-MINI, 2025-04-16	O3, 2025-04-16	O3-mini, 2025-01-31	o1, 2024-12-17
Mensagens do Desenvolvedor	✅	✅	✅	✅	✅	✅
Saídas Estruturadas	✅	✅	✅	✅	✅	✅
Janela de Contexto	Entrada: 200.000 Produção: 100.000	Entrada: 200.000 Produção: 100.000	Entrada: 200.000 Produção: 100.000	Entrada: 200.000 Produção: 100.000	Entrada: 200.000 Produção: 100.000	Entrada: 200.000 Produção: 100.000
Esforço de raciocínio	✅	✅	✅	✅	✅	✅
Entrada de imagem	✅	✅	✅	✅	-	✅
API de Completação de Chat	-	-	✅	✅	✅	✅
API de Respostas	✅	✅	✅	✅	✅	✅
Funções/Ferramentas	✅	✅	✅	✅	✅	✅
Chamadas de Ferramenta Paralelas	-	-	-	-	-	-
`max_completion_tokens` ¹	✅	✅	✅	✅	✅	✅
Mensagens do ^{Sistema 2}	✅	✅	✅	✅	✅	✅
Resumo do raciocínio	✅	-	✅	✅	-	-
Streaming ³	✅	-	✅	✅	✅	-

¹ Os modelos de raciocínio só funcionam com o max_completion_tokens parâmetro quando se utiliza a API de Completação do Chat. Use max_output_tokens com a API de Responses.

² As mensagens mais recentes do sistema de suporte ao modelo O^* Series para facilitar a migração. Quando usa uma mensagem de sistema com o4-mini, o3, o3-mini, e o1 será tratada como uma mensagem de programador. Não deve usar uma mensagem de programador e uma mensagem de sistema no mesmo pedido de API. ³ O streaming para o3 é apenas de acesso limitado.

Nota

Para evitar tempos de espera, recomenda-se o modo em segundo plano para o3-pro.
o3-pro Atualmente não suporta geração de imagens.

Não Suportado

Os seguintes modelos atualmente não são suportados por modelos de raciocínio:

temperature, top_p, presence_penalty, frequency_penalty, logprobs, top_logprobs, logit_bias, max_tokens

Saída Markdown

Por defeito, os modelos o3-mini e o1 não tentam produzir uma saída que inclua formatação em markdown. Um caso de uso comum em que este comportamento é indesejável é quando se quer que o modelo produza código contido dentro de um bloco de código markdown. Quando o modelo gera saída sem formatação markdown, perdem-se funcionalidades como realce de sintaxe e blocos de código copiáveis em experiências interativas em ambientes de teste. Para ultrapassar este novo comportamento padrão e incentivar a inclusão de markdown nas respostas do modelo, adicione a cadeia Formatting re-enabled ao início da sua mensagem de programador.

Adicionar Formatting re-enabled ao início da sua mensagem de programador não garante que o modelo inclua formatação markdown na resposta, apenas aumenta a probabilidade. Descobrimos através de testes internos que Formatting re-enabled é menos eficaz por si só com o o1 modelo do que com o3-mini.

Para melhorar o desempenho do Formatting re-enabled, pode-se aprimorar ainda mais a introdução da mensagem do programador, o que geralmente resultará no resultado desejado. Em vez de apenas acrescentar Formatting re-enabled ao início da sua mensagem de programador, pode experimentar adicionar uma instrução inicial mais descritiva, como um dos exemplos abaixo:

Formatting re-enabled - please enclose code blocks with appropriate markdown tags.
Formatting re-enabled - code output should be wrapped in markdown.

Dependendo da sua saída esperada, pode ser necessário personalizar ainda mais a sua mensagem inicial de programador para direcionar o seu caso de uso específico.

Comentários

Esta página foi útil?

Last updated on 2026-04-29

Modelos de raciocínio Azure OpenAI

Pré-requisitos

Utilização

API de completação de chat

Esforço de raciocínio

Mensagens do programador

Resumo do raciocínio

Python lark

API de Respostas

Conclusões de Chat

Disponibilidade

Disponibilidade regional

Suporte a API e funcionalidades

NOVAS funcionalidades de raciocínio GPT-5

Não Suportado

Saída Markdown

Comentários

Recursos adicionais