Visão geral da Informação Pessoal Identificável baseada em documentos

Document-based PII é uma funcionalidade de pré-visualização na detecção de Informação Pessoal Identificável (PII) no Linguagem da IA do Azure. Ajuda-o a detetar e redigir dados sensíveis diretamente em ficheiros nativos de documentos, incluindo ficheiros Microsoft Word e PDF, sem ter de construir o seu próprio pipeline de extração e reconstrução de texto.

Esta funcionalidade utiliza um fluxo de trabalho API assíncrono e devolve saídas redigidas que preservam a estrutura e formatação do documento. Pode utilizá-lo quando a fidelidade dos documentos for importante para a revisão de conformidade, partilha, análise e fluxos de trabalho de IA a jusante.

Importante

As informações pessoais identificáveis associadas a documentos estão atualmente na versão preliminar e podem ser alteradas antes da disponibilidade geral (GA).

De relance

As PII baseadas em documentos fornecem as seguintes capacidades:

  • Redação nativa de documentos para .pdf, .docx, e .txt ficheiros.
  • Layout preservado nos documentos de saída, incluindo fonte, espaçamento e cores.
  • Um único fluxo de trabalho assíncrono de API para extração, deteção e redação.
  • Resultados prontos para empresas: um documento censurado e um resultado JSON estruturado.

Demonstração em vídeo

Neste vídeo, apresentamos o serviço de deteção de PII e mostramos como deteta e redige dados sensíveis diretamente de documentos nativos, preservando a estrutura e formatação dos ficheiros. Também abordamos casos de uso comuns, formatos suportados e como começar com PII baseadas em documentos no Linguagem da IA do Azure:

Estão disponíveis legendas ocultas para este vídeo.

Porque usar PII baseada em documentos?

Muitos fluxos de trabalho personalizados requerem múltiplas etapas para extrair texto, executar deteção e reconstruir o resultado do documento. As PII baseadas em documentos simplificam este fluxo com um único padrão API assíncrono e artefactos de saída concebidos para sistemas de processamento de documentos.

As PII baseadas em documentos são especialmente úteis quando precisa:

  • Rediga PII em .pdf, .docx, e .txt ficheiros.
  • Preservar o layout dos documentos para processos de negócio a jusante.
  • Gerar uma saída JSON estruturada para auditoria e integração.

As PII baseadas em documentos utilizam as mesmas categorias pré-definidas de PII que as PII de texto, incluindo entidades como endereços, números de telefone e números de cartões de crédito.

O que devolve

Quando uma tarefa é concluída com sucesso, recebe:

  • Um documento redigido no seu local de armazenamento alvo.
  • Um ficheiro de resultados JSON com entidades detetadas, categorias, pontuações de confiança e metadados de processamento.

Como funciona

As PII baseadas em documentos utilizam um fluxo de trabalho assíncrono:

  1. Submete um trabalho com as localizações de armazenamento de origem e destino.
  2. Consulta o estado do trabalho usando o local da operação.
  3. Recupere artefatos de saída do local alvo de armazenamento.

Diagrama que mostra o fluxo de trabalho assíncrono para deteção de PII baseada em documentos.

Para detalhes de implementação e exemplos de pedidos, consulte Detetar e redigir Informação Pessoalmente Identificável em documentos nativos.

Como difere de outros tipos de funcionalidades de PII

Todos os tipos de características PII usam categorias de entidades pré-definidas, mas otimizam para diferentes tipos de entrada:

  • As PII baseadas em documentos são otimizadas para fluxos de trabalho nativos de redação de ficheiros e fidelidade de saída de ficheiros.
  • O Text PII está otimizado para entrada direta baseada em strings e integração com aplicações.
  • O Conversation PII está otimizado para entrada conversacional baseada em turnos e orientada a transcrições.

Casos de uso comuns

As PII baseadas em documentos são concebidas para fluxos de trabalho empresariais e da indústria regulada, onde as equipas precisam de anonimizar ficheiros antes do armazenamento, análise, partilha externa ou processamento subsequente de IA.

Exemplos típicos incluem:

  • Registos judiciais e documentação legal.
  • Formulários governamentais e registos internos.
  • Documentos financeiros.
  • Fluxos de trabalho internos de documentação empresarial.

Formatos suportados e limites

As PII baseadas em documentos aceitam formatos nativos de ficheiro diretamente, sem necessidade de pré-processamento de texto. A tabela seguinte lista os formatos suportados:

Tipo de ficheiro Extensão do ficheiro Descrição
Texto .txt Um documento de texto sem formatação.
Adobe PDF .pdf Um documento portátil formatado por ficheiro de documento.
Microsoft Word .docx Um ficheiro de documento do Microsoft Word.

Aplicam-se as seguintes restrições de entrada:

Atributo Limite
Total de documentos por pedido <= 20
Tamanho total do conteúdo por pedido <= 10 MB

Os seguintes tipos de conteúdo não são suportados:

Tipo Limitação
PDFs totalmente digitalizados Não suportado.
Imagens com texto embutido Imagens digitais com texto incorporado não são suportadas.
Tabelas em documentos digitalizados Não suportado.

Consulte apoio linguístico, quotas e limites para cobertura linguística atual e detalhes dos limites de serviço.

Preços

A ocultação de informações pessoalmente identificáveis (PII) baseada em documentos utiliza os preços do Linguagem da IA do Azure. Para detalhes de preços atuais, consulte preços do Linguagem da IA do Azure.

Próximos passos

Use as seguintes referências para continuar a implementação: