Classificar e rotear seus dados usando o Content Understanding

O Content Understanding permite criar fluxos de trabalho de classificação personalizados que categorizam seu conteúdo e o roteiam para o analisador correto. Com o roteamento, você pode enviar vários fluxos de dados pelo mesmo pipeline e garantir que seus dados sejam processados pelo melhor analisador para seu tipo.

Este guia orienta você por duas etapas:

  1. Crie um classificador básico que categorize documentos em categorias personalizadas.
  2. Classifique e roteie com analisadores personalizados que combinam classificação com extração de campo para cada categoria.

Pré-requisitos

Para começar, verifique se você tem os seguintes recursos e permissões:

  • Uma assinatura Azure. Se você não tiver uma assinatura Azure, criar uma conta gratuita.
  • Um recurso Microsoft Foundry no portal Azure, criado em uma região suportada.
    • Esse recurso está listado no portal em Foundry>Foundry.
  • Configure implantações de modelo padrão para o recurso de Compreensão de Conteúdo. Ao definir padrões, você cria uma conexão com os modelos de Microsoft Foundry usados para solicitações de Compreensão de Conteúdo. Escolha um dos seguintes métodos:
    1. Vá para a página de configurações de Compreensão de Conteúdo.

    2. Selecione o botão + Adicionar recurso no canto superior esquerdo.

    3. Selecione o recurso Foundry que você deseja usar e selecione Avançar>Salvar.

      Verifique se a caixa de seleção Habilitar implantação automática para modelos obrigatórios se nenhum padrão estiver disponível está marcada. Essa seleção garante que seu recurso esteja totalmente configurado com os modelos necessários GPT-4.1, GPT-4.1-mini e text-embedding-3-large. Diferentes analisadores predefinidos exigem modelos diferentes.

    Seguindo estas etapas, você configura uma conexão entre os modelos de Compreensão de Conteúdo e Foundry no recurso Foundry.
  • cURL instalado para o ambiente de desenvolvimento (para a aba API REST).

Etapa 1: Criar um classificador básico

Um classificador básico categoriza documentos em categorias de conteúdo personalizadas. Você define as categorias com nomes e descrições e o serviço usa essas definições para classificar seus arquivos de entrada. O enableSegment parâmetro controla se o classificador divide arquivos de vários documentos em segmentos ou trata todo o arquivo como um único documento.

Fazer login no Studio de Compreensão de Conteúdo

Acesse o portal do Content Understanding Studio e entre com suas credenciais. Se você estiver familiarizado com a experiência clássica do Azure Document Intelligence no Foundry Tools Studio, o Content Understanding estenderá o mesmo conteúdo e extração de campo em todas as modalidades: documento, imagem, vídeo e áudio. Selecione a opção para experimentar a nova experiência de Compreensão de Conteúdo para acessar recursos multimodal.

Criar um projeto de classificador

  1. Comece com um novo projeto: selecione Criar projeto na home page.

  2. Selecione o tipo de projeto: selecione a opção para Classify and route with custom categories.

  3. Carregue seus dados: carregue um pedaço de dados de exemplo para começar a classificar.

  4. Criar regras de roteamento: na guia Regras de roteamento , selecione Add category. Dê à categoria um nome e uma descrição. Para um classificador básico, você pode ignorar a atribuição de um analisador específico a cada categoria.

  5. Teste seu fluxo de trabalho de classificação: quando suas regras de roteamento personalizadas estiverem prontas para teste, selecione Executar análise para ver a saída das regras em seus dados.

    Captura de tela do Content Understanding Studio com o botão Testar realçado.

  6. Crie o analisador de classificação: quando estiver satisfeito com a saída, selecione o botão Criar analisador na parte superior da página. Dê um nome ao analisador e selecione Salvar.

Etapa 2: Classificar e rotear com analisadores personalizados

Para ir além da classificação básica, você pode rotear cada categoria para um analisador específico para extração de campo. Essa abordagem combina a classificação com a extração de dados em um único pipeline: o classificador identifica o tipo de documento e o encaminha para o analisador correto, que extrai campos personalizados para essa categoria.

Para rotear seus dados com êxito, crie analisadores personalizados para cada categoria. Para obter mais informações sobre como criar analisadores personalizados, consulte Criar e melhorar seu analisador personalizado no Content Understanding Studio.

  1. Crie analisadores personalizados primeiro: crie analisadores personalizados para cada tipo de documento que você deseja rotear. Por exemplo, crie um analisador personalizado para aplicativos de empréstimo com um esquema de extração de campo específico para esse tipo de documento.

  2. Criar ou atualizar regras de roteamento: na guia Regras de roteamento , selecione Add category. Dê à categoria um nome e uma descrição e selecione um analisador para corresponder a essa rota. A ferramenta permite que você visualize o esquema de cada analisador para assegurar que você selecione o correto.

    Captura de tela das rotas de UX para classificação.

  3. Teste seu fluxo de trabalho de classificação: selecione Executar análise para ver a saída das regras em seus dados. Você pode carregar dados de exemplo adicionais para teste para ver como ele é executado com várias regras diferentes.

    Captura de tela do Content Understanding Studio com o botão Testar realçado.

  4. Crie o analisador de classificação: quando estiver satisfeito com a saída, selecione o botão Criar analisador na parte superior da página. Dê um nome ao analisador e selecione Salvar.

  5. Use seu analisador de classificação: agora você tem um ponto de extremidade de analisador que pode usar em seu próprio aplicativo por meio da API REST.

Dica

Para um notebook Python completo de ponta a ponta, consulte o exemplo classifier no GitHub.

Próximas etapas