Una visión general de la Información de Identificación Personal basada en documentos

PII basado en documentos es una característica en versión preliminar en la detección de información de identificación personal (PII) de Lenguaje de Azure AI. Le ayuda a detectar y redactar datos confidenciales directamente en archivos de documentos nativos, incluidos los archivos Microsoft Word y PDF, sin crear su propia canalización de extracción y reconstrucción de texto.

Esta característica usa un flujo de trabajo de API asincrónica y devuelve una salida redactada que conserva la estructura y el formato del documento. Puede usarlo cuando la fidelidad del documento es importante para la revisión de cumplimiento, el uso compartido, el análisis y los flujos de trabajo de inteligencia artificial posteriores.

Importante

La DCP basada en documentos se encuentra actualmente en fase preliminar y está sujeta a cambios antes de la fecha de disponibilidad general (GA).

En un vistazo

La PII basada en documentos proporciona las siguientes funcionalidades:

Redacción nativa de documentos para los archivos .pdf, .docx y .txt.
Diseño conservado en los documentos de salida, incluida la fuente, el espaciado y el color.
Un único flujo de trabajo de API asincrónico para la extracción, detección y redacción.
Resultados listos para la empresa: un documento redactado y un resultado JSON estructurado.

Demostración en vídeo

En este vídeo, presentamos el servicio de detección de PII y le mostramos cómo detecta y redacta datos confidenciales directamente desde documentos nativos, a la vez que se conserva la estructura y el formato de los archivos. También tratamos casos de uso comunes, formatos admitidos y cómo empezar a trabajar con PII basado en documentos en Lenguaje de Azure AI:

Los subtítulos ocultos están disponibles para este vídeo.

¿Por qué usar PII basado en documentos?

Muchas canalizaciones personalizadas requieren varios pasos para extraer texto, ejecutar detección y reconstruir la salida del documento. PiI basado en documentos simplifica este flujo con un único patrón de API asincrónico y artefactos de salida diseñados para sistemas de procesamiento de documentos.

La PII basada en documentos es especialmente útil cuando es necesario:

Redacte PII en los archivos .pdf, .docx y .txt.
Conserve el diseño del documento para los procesos empresariales de nivel inferior.
Genere una salida JSON estructurada para la auditoría y la integración.

La PII basada en documentos usa las mismas categorías de PII predefinidas que piI de texto, incluidas entidades como direcciones, números de teléfono y números de tarjeta de crédito.

Lo que devuelve

Cuando un trabajo se realiza correctamente, recibirá lo siguiente:

Documento redactado en el contenedor de almacenamiento de destino.
Un archivo de resultados JSON con entidades detectadas, categorías, puntuaciones de confianza y metadatos de procesamiento.

Cómo funciona

PII basado en documentos utiliza un flujo de trabajo asincrónico:

Envíe un trabajo con ubicaciones de almacenamiento de origen y de destino.
Sondee el estado del trabajo utilizando la ubicación de la operación.
Recupere los artefactos de salida de la ubicación de almacenamiento de destino.

Diagrama que muestra el flujo de trabajo asincrónico para la detección de PII basada en documentos.

Para obtener detalles de implementación y ejemplos de solicitudes, consulte Detección y redacción de información de identificación personal en documentos nativos.

Cómo se diferencia de otros tipos de características de PII

Todos los tipos de características de PII usan categorías de entidad predefinidas, pero optimizan para diferentes tipos de entrada:

La DCP basada en documentos está optimizada para facilitar los flujos de trabajo de redacción en formato nativo y mantener la fidelidad del archivo de salida.
Text PII está optimizado para la entrada basada en cadenas y la integración directa en aplicaciones.
La DCP de conversación está optimizada para procesar entradas de conversación por turnos y orientadas a transcripciones.

Casos de uso comunes

La PII basada en documentos está diseñada para flujos de trabajo empresariales y regulados en los que los equipos necesitan anonimizar archivos antes del almacenamiento, el análisis, el uso compartido externo o el procesamiento de inteligencia artificial de bajada.

Entre los ejemplos típicos se incluyen:

Registros judiciales y documentación legal.
Formularios gubernamentales y registros internos.
Documentos financieros.
Flujos de trabajo de documentación empresarial internos.

Formatos y límites admitidos

PiI basado en documentos acepta formatos de archivo nativos directamente, sin necesidad de preprocesamiento de texto. En la tabla siguiente se enumeran los formatos admitidos:

Tipo de archivo	Extensión de archivo	Descripción
Text	`.txt`	Documento de texto sin formato
PDF de Adobe	`.pdf`	Un documento portátil con formato de archivo de documento.
Microsoft Word	`.docx`	Un archivo de documento Microsoft Word.

Se aplican las restricciones de entrada siguientes:

Atributo	Limit
Total de documentos por solicitud	<= 20
Tamaño total de contenido por solicitud	<= 10 MB

No se admiten los siguientes tipos de contenido:

Tipo	Limitación
Documentos PDF totalmente escaneados	No está soportado.
Imágenes con texto incrustado	No se admiten imágenes digitales con texto incrustado.
Tablas en documentos escaneados	No está soportado.

Consulte compatibilidad con idiomas y cuotas y límites para conocer los detalles actuales de cobertura de idioma y límite de servicios.

Precios

La ocultación de DCP basada en documentos se rige por los precios de Lenguaje de Azure AI. Para conocer los detalles de los precios actuales, consulte precios de Lenguaje de Azure AI.

Pasos siguientes

Use las siguientes referencias para continuar la implementación:

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-30