Visão geral da PII baseada em documento

Document-based PII é um recurso na detecção de Informações de Identificação Pessoal (PII) do Linguagem de IA do Azure que está disponível na versão prévia. Ele ajuda você a detectar e redigir dados confidenciais diretamente em arquivos de documentos nativos, incluindo arquivos Microsoft Word e PDF, sem criar seu próprio pipeline de extração e reconstrução de texto.

Esse recurso usa um fluxo de trabalho de API assíncrona e retorna uma saída redigida que preserva a estrutura e a formatação do documento. Você pode usá-la quando a fidelidade de documentos é importante para revisão de conformidade, compartilhamento, análise e fluxos de trabalho de IA downstream.

Importante

A PII (Informações de Identificação Pessoal) baseada em documento está atualmente em versão prévia e pode ser alterada antes da disponibilidade geral (GA).

Visão rápida

A PII baseada em documento fornece os seguintes recursos:

Redação nativa de documentos para arquivos .pdf, .docx e .txt.
Layout preservado em documentos de saída, incluindo fonte, espaçamento e cor.
Um único fluxo de trabalho de API assíncrona para extração, detecção e redação.
Saídas prontas para uso corporativo: um documento editado e um resultado JSON estruturado.

Demonstração de vídeo

Neste vídeo, apresentamos o serviço de detecção de PII e mostramos como ele detecta e redigi dados confidenciais diretamente de documentos nativos, preservando a estrutura e a formatação de arquivos. Também abordamos casos de uso comuns, formatos com suporte e como começar a usar a PII baseada em documento no Linguagem de IA do Azure:

Legendas fechadas estão disponíveis para este vídeo.

Por que usar a PII baseada em documento?

Muitos pipelines personalizados exigem várias etapas para extrair texto, executar a detecção e reconstruir a saída do documento. A PII baseada em documento simplifica esse fluxo com um único padrão de API assíncrona e artefatos de saída projetados para sistemas de processamento de documentos.

A PII baseada em documento é especialmente útil quando você precisa:

Redigir PII nos arquivos .pdf, .docx e .txt.
Preservar o layout do documento para processos de negócios subsequentes.
Gerar saída JSON estruturada para auditoria e integração.

A PII baseada em documento usa as mesmas categorias de PII predefinidas que a PII de texto, incluindo entidades como endereços, números de telefone e números de cartão de crédito.

O que ele retorna

Quando um trabalho é bem-sucedido, você recebe:

Um documento redigido no contêiner de armazenamento de destino.
Um arquivo de resultado JSON com entidades detectadas, categorias, pontuações de confiança e metadados de processamento.

Como funciona

A PII baseada em documento usa um fluxo de trabalho assíncrono:

Envie um trabalho com locais de armazenamento de origem e de destino.
Sondar o status do trabalho usando o local da operação.
Recupere artefatos de saída do local de armazenamento de destino.

Diagrama mostrando o fluxo de trabalho assíncrono para detecção de PII baseada em documento.

Para obter detalhes de implementação e exemplos de solicitação, consulte Detectar e redigir informações de identificação pessoal em documentos nativos.

Como isso difere de outros tipos de características de PII

Todos os tipos de recursos de PII usam categorias de entidade predefinidas, mas otimizam para diferentes tipos de entrada:

A PII baseada em documento é otimizada para fluxos de trabalho de redação de arquivo nativo e fidelidade de saída de arquivo.
A PII de Texto é otimizada para entrada direta baseada em cadeia de caracteres e integração de aplicativos.
A PII de conversa é otimizada para entrada de dados conversacionais baseada em turno e orientada para transcrição.

Casos de uso comuns

A PII baseada em documento foi projetada para fluxos de trabalho corporativos e do setor regulamentado, em que as equipes precisam anonimizar arquivos antes do armazenamento, análise, compartilhamento externo ou processamento de IA downstream.

Exemplos típicos incluem:

Registros judiciais e documentação legal.
Formulários governamentais e registros internos.
Documentos financeiros.
Fluxos de trabalho internos da documentação da empresa.

Formatos e limites com suporte

A PII baseada em documento aceita formatos de arquivo nativos diretamente, sem a necessidade de pré-processamento de texto. A tabela a seguir lista os formatos com suporte:

Tipo de arquivo	Extensão de arquivo	Descrição
Texto	`.txt`	Um documento de texto não formatado.
Adobe PDF	`.pdf`	Um documento formatado de arquivo de documento portátil.
Microsoft Word	`.docx`	Um arquivo de documento Microsoft Word.

As seguintes restrições de entrada se aplicam:

Atributo	Limite
Total de documentos por solicitação	<= 20
Tamanho total do conteúdo por solicitação	<= 10 MB

Não há suporte para os seguintes tipos de conteúdo:

Tipo	Limitação
PDFs completamente digitalizados	Não há suporte.
Imagens com texto inserido	Não há suporte para imagens digitais com texto inserido.
Tabelas em documentos digitalizados	Não há suporte.

Consulte o suporte ao idioma , cotas e limites para detalhes atuais de cobertura de idioma e limite de serviço.

Preços

A remoção de PII baseada em documento utiliza o modelo de preços do Linguagem de IA do Azure. Para obter detalhes de preços atuais, consulte preços do Linguagem de IA do Azure.

Próximas etapas

Use as seguintes referências para continuar a implementação:

Comentários

Esta página foi útil?

Last updated on 2026-04-29