Azure OpenAI On Your Data (clássico)

Aplica-se apenas a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal da Foundry. Saiba mais sobre o novo portal.

Nota

Os links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação do Foundry (clássico) que está a ver agora.

Importante

O Azure OpenAI On Your Data está descontinuado e está a aproximar-se da desativação.

A Microsoft deixou de integrar novos modelos no Azure OpenAI On Your Data. Esta funcionalidade suporta apenas os seguintes modelos:

GPT-4o (versões 2024-05-13, 2024-08-06 e 20-11-2024)
GPT-4o-mini (versão 2024-07-18)
GPT-4.1, GPT-4.1-mini e GPT-4.1-nano (versão 2025-04-14)

Assim que os modelos GPT-4.1 se retiram, todos os endpoints e conectores de fonte de dados suportados Azure OpenAI On Your Data API deixam de funcionar.

Recomendamos que migre as cargas de trabalho do Azure OpenAI On Your Data para o Foundry Agent Service com o Foundry IQ para recuperar conteúdo e gerar respostas fundamentadas a partir dos seus dados. Para começar, consulte a base de conhecimento do Connect Foundry IQ.

Use este artigo para aprender sobre o Azure OpenAI On Your Data, que facilita a ligação, ingestão e fundamentação dos seus dados empresariais para criar copilots personalizados (pré-visualização) rapidamente. Melhora a compreensão do utilizador, acelera a conclusão de tarefas, melhora a eficiência operacional e auxilia na tomada de decisões.

O que é o Azure OpenAI no Seu Conjunto de Dados

O Azure OpenAI On Your Data permite-lhe executar modelos avançados de IA como GPT-35-Turbo e GPT-4 nos seus próprios dados empresariais, sem necessidade de treinar ou afinar os modelos. Pode conversar e analisar os seus dados com maior precisão. Pode especificar fontes para apoiar as respostas com base na informação mais recente disponível nas suas fontes de dados designadas. Pode aceder ao Azure OpenAI On Your Data usando uma API REST, através do SDK ou da interface baseada na web no portal Microsoft Foundry. Também pode criar uma aplicação web que se ligue aos seus dados para permitir uma solução de chat melhorada ou implementá-la diretamente como copilot no Copilot Studio (pré-visualização).

Desenvolver com Azure OpenAI com os Seus Dados

Um diagrama que mostra um fluxo de trabalho de exemplo.

Normalmente, o processo de desenvolvimento que usaria com o Azure OpenAI On Your Data é:

Ingestão: Carregar ficheiros usando o portal Foundry ou a API de carregamento. Isto permite que os seus dados sejam decifrados, fragmentados e incorporados numa instância do Pesquisa de IA do Azure que pode ser usada pelos modelos Azure OpenAI. Se já tiver uma fonte de dados suportada, também pode ligá-la diretamente.
Develop: Depois de tentar Azure OpenAI On Your Data, comece a desenvolver a sua aplicação usando a API REST e os SDKs disponíveis, que estão disponíveis em várias línguas. Irá criar prompts e intenções de pesquisa para passar para o serviço Azure OpenAI.
Inferência: Depois de a sua aplicação ser implementada no ambiente preferido, ela enviará prompts para Azure OpenAI, que executará vários passos antes de devolver uma resposta:
1. Geração de intenções: O serviço determinará a intenção do prompt do utilizador para determinar uma resposta adequada.
2. Recuperação: O serviço recupera blocos relevantes de dados disponíveis da fonte de dados conectada, consultando-a. Por exemplo, usando uma pesquisa semântica ou vetorial. Parâmetros como rigor e número de documentos a recuperar são utilizados para influenciar a recuperação.
3. Filtragem e reclassificação: Os resultados da pesquisa na etapa de recuperação são melhorados ao classificar e filtrar dados para refinar a relevância.
4. Geração de respostas: Os dados resultantes são submetidos juntamente com outras informações, como a mensagem do sistema, ao Grande Modelo de Linguagem (LLM) e a resposta é enviada de volta para a aplicação.

Para começar, ligue a sua fonte de dados através do portal Foundry e comece a colocar perguntas e a conversar sobre os seus dados.

Azure Controlo de acessos baseado em funções (Azure RBAC) para adicionar fontes de dados

Para tirar total partido do Azure OpenAI On Your Data, precisa de definir uma ou mais funções Azure RBAC. Consulte Azure OpenAI On Your Data Configuration para mais informações.

Formatos de dados e tipos de ficheiros

O Azure OpenAI On Your Data suporta os seguintes tipos de ficheiros:

.txt
.md
.html
.docx
.pptx
.pdf

Existe um limite de upload, e há algumas ressalvas sobre a estrutura do documento e como isso pode afetar a qualidade das respostas do modelo:

Se estiver a converter dados de um formato não suportado para um formato suportado, otimize a qualidade da resposta do modelo garantindo a conversão:
- Não leva a uma perda significativa de dados.
- Não adiciona ruído inesperado aos teus dados.
Se os seus ficheiros tiverem formatação especial, como tabelas e colunas, ou tópicos, prepare os seus dados com o script de preparação de dados disponível em GitHub.
Para documentos e conjuntos de dados com texto longo, deve usar o script de preparação de dados disponível. O script fragmenta os dados para que as respostas do modelo sejam mais precisas. Este script também suporta ficheiros PDF digitalizados e imagens.

Fontes de dados suportadas

Precisa de se ligar a uma fonte de dados para carregar os seus dados. Quando quiser usar os seus dados para conversar com um modelo Azure OpenAI, os seus dados são agrupados num índice de pesquisa para que dados relevantes possam ser encontrados com base nas consultas dos utilizadores.

Nota

Os seus dados devem ser texto não estruturado para melhores resultados. Se tiveres dados semi-estruturados ou não textuais, considera convertê-los em texto. Se os seus ficheiros tiverem formatação especial, como tabelas e colunas, ou tópicos, prepare os seus dados com o script de preparação de dados disponível em GitHub.

A base de dados vetorial integrada em Azure Cosmos DB baseada em vCore para MongoDB suporta nativamente a integração com Azure OpenAI On Your Data.

Para algumas fontes de dados, como carregar ficheiros da sua máquina local (pré-visualização) ou dados contidos numa conta de armazenamento de blob (pré-visualização), utiliza-se o Pesquisa de IA do Azure. Ao escolher as seguintes fontes de dados, os seus dados são ingeridos num índice do Pesquisa de IA do Azure.

Dados ingeridos através do Pesquisa de IA do Azure	Descrição
Pesquisa de IA do Azure	Use um índice existente do Pesquisa de IA do Azure com o Azure OpenAI On Your Data.
Carregar ficheiros (pré-visualização)	Carregue ficheiros do seu computador local para serem armazenados numa base de dados Armazenamento de Blobs do Azure e ingeridos no Pesquisa de IA do Azure.
URL/Endereço Web (pré-visualização)	O conteúdo web das URLs é armazenado no Armazenamento de Blobs do Azure.
Armazenamento de Blobs do Azure (preview)	Carregar ficheiros do Armazenamento de Blobs do Azure para serem ingeridos num índice do Pesquisa de IA do Azure.

Pode querer considerar usar um índice do Pesquisa de IA do Azure quando quiser:

Personaliza o processo de criação do índice.
Reutilize um índice criado anteriormente ao ingerir dados de outras fontes de dados.

Nota

Para usar um índice existente, deve ter pelo menos um campo pesquisável.
Defina a opção Tipo de Origem Permitida do CORS para all e a opção Origens Permitidas para *.
Não podes ter campos complexos no teu índice de pesquisa.

Tipos de pesquisa

O Azure OpenAI On Your Data fornece os seguintes tipos de pesquisa que pode usar ao adicionar a sua fonte de dados.

Pesquisa por palavras-chave
Pesquisa semântica
Pesquisa vetorial usando o text-embedding-ada-002 modelo de embedding, disponível em regiões selecionadas

Para ativar a pesquisa vetorial, precisa de um modelo de embedding existente implementado no seu recurso Azure OpenAI. Selecione a sua configuração de embedding ao conectar os seus dados, depois selecione um dos tipos de pesquisa vetorial em gestão de dados. Se estiveres a usar o Pesquisa de IA do Azure como fonte de dados, certifica-te de que tens uma coluna vetorial no índice.

Se estiveres a usar o teu próprio índice, podes personalizar o mapeamento de campos quando adicionas a tua fonte de dados para definir os campos que serão mapeados ao responder a perguntas. Para personalizar o mapeamento de campos, selecione Usar mapeamento personalizado de campos na página de Fonte de Dados ao adicionar a sua fonte de dados.

Importante

A pesquisa semântica está sujeita a preços adicionais. Tens de escolher Basic ou SKU superior para ativar a pesquisa semântica ou vetorial. Consulte a diferença de escalão de preços e os limites de serviço para mais informações.
Para ajudar a melhorar a qualidade da recuperação de informação e da resposta do modelo, recomendamos ativar a pesquisa semântica para as seguintes línguas fonte de dados: inglês, francês, espanhol, português, italiano, alemão, chinês(Zh), japonês, coreano, russo e árabe.

Opção de pesquisa	Tipo de recuperação	Preços adicionais?	Benefícios
palavra-chave	Pesquisa por palavras-chave	Sem preços adicionais.	Realiza análises e correspondências rápidas e flexíveis de consultas em campos pesquisáveis, utilizando termos ou frases em qualquer língua suportada, com ou sem operadores.
Semântica	Pesquisa semântica	Preços adicionais para uso de pesquisa semântica .	Melhora a precisão e relevância dos resultados de pesquisa ao utilizar um reclassificador (com modelos de IA) para compreender o significado semântico dos termos de consulta e documentos devolvidos pelo classificador inicial de pesquisa
Vetor	Pesquisa vetorial	Preço adicional na sua conta Azure OpenAI ao chamar o modelo de incorporação.	Permite encontrar documentos semelhantes a uma determinada entrada de consulta com base nos embeddings vetoriais do conteúdo.
híbrido (vetor + palavra-chave)	Um híbrido entre pesquisa vetorial e pesquisa por palavras-chave	Preço adicional na sua conta Azure OpenAI ao chamar o modelo de embedding.	Executa pesquisa por similaridade em campos vetoriais usando embeddings vetoriais, enquanto também suporta uma análise flexível de consultas e pesquisa de texto integral em campos alfanuméricos usando consultas por termos.
híbrido (vetor + palavra-chave) + semântica	Um híbrido de pesquisa vetorial, pesquisa semântica e pesquisa por palavras-chave.	Preços adicionais na sua conta OpenAI Azure por invocar o modelo de embedding, e preços adicionais para utilização de pesquisa semântica.	Utiliza embeddings vetoriais, compreensão de linguagem e análise sintática de consultas flexível para criar experiências de pesquisa ricas e aplicações de IA generativa capazes de lidar com cenários complexos e diversos de recuperação de informação.

Pesquisa inteligente

O Azure OpenAI On Your Data tem a pesquisa inteligente ativada para os seus dados. A pesquisa semântica está ativada por defeito se tiveres tanto pesquisa semântica como pesquisa por palavras-chave. Se tiver modelos de embedding, a pesquisa inteligente é híbrida + pesquisa semântica.

Controlo de acesso ao nível do documento

Nota

O controlo de acesso a nível de documento é suportado quando seleciona o Pesquisa de IA do Azure como fonte de dados.

Azure OpenAI On Your Data permite-lhe restringir os documentos que podem ser usados em respostas para diferentes utilizadores com filtros de segurança do Pesquisa de IA do Azure filtros de segurança. Quando ativa o acesso ao nível do documento, os resultados de pesquisa retornados pelo Pesquisa de IA do Azure e usados para gerar uma resposta são reduzidos com base na pertença ao grupo Microsoft Entra do utilizador. Só pode ativar o acesso ao nível do documento nos índices existentes do Pesquisa de IA do Azure. Consulte Azure OpenAI sobre a configuração de rede e acesso para mais informações.

Mapeamento de campos de índice

Se estiver a usar o seu próprio índice, será solicitado no portal Foundry a definir quais os campos que quer mapear para responder a perguntas quando adicionar a sua fonte de dados. Pode fornecer múltiplos campos para Dados de Conteúdo, e deve incluir todos os campos que tenham texto relacionado com o seu caso de uso.

Neste exemplo, os campos mapeados para Dados de Conteúdo e Título fornecem informação ao modelo para responder a perguntas. Título também é usado para nomear o texto da citação. O campo mapeado para nome do ficheiro gera os nomes das citações na resposta.

Mapear corretamente estes campos ajuda a garantir que o modelo tem melhor qualidade de resposta e de citação. Podes ainda configurá-lo na API usando o fieldsMapping parâmetro.

Se quiser implementar critérios adicionais baseados em valor para execução de consultas, pode configurar um filtro de pesquisa usando o filter parâmetro na API REST.

Como os dados são ingeridos no Azure AI Search

Em setembro de 2024, as APIs de ingestão passaram para vetorização integrada. Esta atualização não altera os contratos de API existentes. A vetorização integrada, uma nova oferta do Pesquisa de IA do Azure, utiliza competências pré-construídas para fragmentar e incorporar os dados de entrada. O serviço de ingestão Azure OpenAI On Your Data já não utiliza competências personalizadas. Após a migração para a vetorização integrada, o processo de ingestão sofreu algumas modificações e, como resultado, apenas os seguintes ativos são criados:

{job-id}-index
{job-id}-indexer, se for especificado um cronograma horário ou diário, caso contrário, o indexador é limpo no final do processo de ingestão.
{job-id}-datasource

O contentor de chunks já não está disponível, pois esta funcionalidade é agora gerida de forma inerente pelo Pesquisa de IA do Azure.

Ligação de dados

Tens de selecionar como queres autenticar a ligação a partir do Azure OpenAI, Pesquisa de IA do Azure e Azure blob storage. Pode escolher uma identidade gerida atribuída ao Sistema ou uma chave API. Ao selecionar chave API como tipo de autenticação, o sistema irá preencher automaticamente a chave API para que se ligue aos seus recursos Pesquisa de IA do Azure, Azure OpenAI e Armazenamento de Blobs do Azure. Ao selecionar Identidade gerida atribuída ao sistema, a autenticação será baseada na atribuição de função que possui. A identidade gerida atribuída ao sistema é selecionada por defeito para segurança.

Assim que selecionares o botão seguinte , ele valida automaticamente a tua configuração para usar o método de autenticação selecionado. Se encontrar um erro, consulte o artigo sobre atribuição de funções para atualizar a sua configuração.

Depois de corrigir a configuração, selecione novamente o próximo para validar e prossiga. Os utilizadores de API também podem configurar autenticação com identidade gerida atribuída e chaves API.

Podes querer usar o Armazenamento de Blobs do Azure como fonte de dados se quiseres ligar-te ao Armazenamento de Blobs do Azure existente e usar ficheiros armazenados nos teus contentores.

Agendar atualizações automáticas do índice

Nota

A atualização automática do índice é suportada apenas para Armazenamento de Blobs do Azure.

Para manter o seu índice Pesquisa de IA do Azure up-todata com os dados mais recentes, pode agendar uma atualização automática do índice em vez de o atualizar manualmente sempre que os seus dados são atualizados. A atualização automática do índice só está disponível quando escolhe Armazenamento de Blobs do Azure como fonte de dados. Para ativar uma atualização automática do índice:

Adicione uma fonte de dados usando o portal Foundry.
Em Selecionar ou adicionar fonte de dados , selecione Indexer schedule e escolha a cadência de atualização que pretende aplicar.

Depois de a ingestão de dados ser definida para uma frequência diferente de uma única vez, os indexadores de Pesquisa Azure AI serão criados segundo um calendário equivalente a 0.5 * the cadence specified. Isto significa que, na cadência especificada, os indexadores irão puxar, reprocessar e indexar os documentos que foram adicionados ou modificados do contentor de armazenamento. Este processo garante que os dados atualizados são pré-processados e indexados automaticamente no índice final na cadência desejada. Para atualizar os seus dados, só precisa de carregar os documentos adicionais do portal Azure. No portal, selecione Conta de Armazenamento>Contentores. Selecione o nome do contentor original e depois faça o Upload. O índice irá recolher os ficheiros automaticamente após o período de atualização programado. Os ativos intermédios criados no recurso Pesquisa de IA do Azure não serão limpos após a ingestão para permitir futuras execuções. Estes ativos são:

{Index Name}-index
{Index Name}-indexer
{Index Name}-datasource
{Index Name}-skillset

Para modificar o calendário, pode usar o portal Azure.

Abra a sua página de recursos de pesquisa no portal do Azure
Selecionar Indexadores no painel esquerdo
Execute os passos seguintes nos dois indexadores que têm o seu nome de índice como prefixo.
1. Seleciona o indexador para o abrir. Em seguida, selecione o separador de definições.
2. Atualize o horário para a cadência desejada a partir de "Agenda" ou especifique uma cadência personalizada a partir de "Intervalo (minutos)"
3. Selecione Guardar.

Como os dados são ingeridos no Azure AI Search

{job-id}-index
{job-id}-indexer, se for especificado um cronograma horário ou diário, caso contrário, o indexador é limpo no final do processo de ingestão.
{job-id}-datasource

O contentor de chunks já não está disponível, pois esta funcionalidade é agora gerida de forma inerente pelo Pesquisa de IA do Azure.

Ligação de dados

Usando o portal Foundry, pode carregar ficheiros da sua máquina para experimentar o Azure OpenAI On Your Data. Também tem a opção de criar uma nova conta Armazenamento de Blobs do Azure e um recurso Pesquisa de IA do Azure. O serviço armazena então os ficheiros num contentor de armazenamento Azure e realiza a ingestão a partir do contentor. Pode usar o artigo de início rápido para aprender a utilizar esta opção de fonte de dados.

Como os dados são ingeridos no Azure AI Search

{job-id}-index
{job-id}-indexer, se for especificado um cronograma horário ou diário, caso contrário, o indexador é limpo no final do processo de ingestão.
{job-id}-datasource

O contentor de chunks já não está disponível, pois esta funcionalidade é agora gerida de forma inerente pelo Pesquisa de IA do Azure.

Ligação de dados

Pode colar URLs e o serviço armazenará o conteúdo da página web, usando-o ao gerar respostas a partir do modelo. O conteúdo nos URLs/endereços web que utiliza precisa de ter as seguintes características para ser devidamente ingerido:

Um site público, como Usar dados com Azure OpenAI em Foundry Models - Azure OpenAI | Microsoft Learn. Não podes adicionar um URL/endereço Web com controlo de acesso, como os que têm palavra-passe.
Um sítio web HTTPS.
O tamanho do conteúdo em cada URL é inferior a 5 MB.
O site pode ser descarregado como um dos tipos de ficheiro suportados.
Apenas uma camada de ligações aninhadas é suportada. Na página web, só serão obtidos até 20 links.

Depois de adicionar o URL/endereço web para a ingestão de dados, as páginas web do seu URL são recuperadas e guardadas em Armazenamento de Blobs do Azure com o nome do contentor: webpage-<index name>. Cada URL será guardada num contentor diferente dentro da conta. Depois, os ficheiros são indexados num índice do Pesquisa de IA do Azure, que é usado para recuperação quando está a conversar com o modelo.

Como os dados são ingeridos no Azure AI Search

{job-id}-index
{job-id}-indexer, se for especificado um cronograma horário ou diário, caso contrário, o indexador é limpo no final do processo de ingestão.
{job-id}-datasource

O contentor de chunks já não está disponível, pois esta funcionalidade é agora gerida de forma inerente pelo Pesquisa de IA do Azure.

Ligação de dados

Pode ligar-se à sua base de dados vetorial Elasticsearch e conversar com os seus dados.

Pré-requisitos

Uma base de dados Elasticsearch
Um modelo de embedding. Podes:
- Usar um modelo de embedding existente de Azure OpenAI text-embedding-ada-002, ou
- Traga o seu próprio modelo de integração alojado no Elasticsearch.
Prepara os teus dados usando o notebook Python disponível em GitHub.

Solicitar acesso

A utilização da fonte de dados Elasticsearch é uma funcionalidade de pré-visualização que está sujeita aos termos do Serviço de Acesso Limitado nos termos específicos do serviço. Deve preencher e submeter um formulário de pedido para solicitar acesso à fonte de dados do Elasticsearch. O formulário solicita informações sobre a sua empresa e o cenário para o qual planeia utilizar a fonte de dados do Elasticsearch. Depois de submeter o formulário, a equipa do Azure OpenAI irá analisá-lo e enviar-lhe um email com uma decisão no prazo de 10 dias úteis.