Nota de transparencia para el reconocimiento de entidades con nombre, incluida la información de identificación personal (PII)

Importante

Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para obtener la versión definitiva.

¿Qué es una nota de transparencia?

Importante

En este artículo se da por supuesto que está familiarizado con las directrices y los procedimientos recomendados para Azure Language en Foundry Tools. Para obtener más información, consulte Nota de transparencia sobre el idioma.

Un sistema de inteligencia artificial incluye no solo la tecnología, sino también las personas que lo usarán, las personas que se verán afectadas por ella y el entorno en el que se implementa. La creación de un sistema que se ajuste a su finalidad prevista requiere una comprensión de cómo funciona la tecnología, sus capacidades y limitaciones, y cómo lograr el mejor rendimiento. las notas de transparencia de Microsoft están pensadas para ayudarle a comprender cómo funciona nuestra tecnología de inteligencia artificial, las opciones que los propietarios del sistema pueden tomar para influir en el rendimiento y el comportamiento del sistema, y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas de transparencia al desarrollar o implementar su propio sistema, o compartirlas con las personas que usarán o se verán afectadas por el sistema.

las notas de transparencia de Microsoft forman parte de un esfuerzo más amplio en Microsoft poner en práctica nuestros principios de inteligencia artificial. Para obtener más información, consulte Principios de inteligencia artificial responsable de Microsoft.

Introducción al reconocimiento de entidades nombradas e información de identificación personal (PII)

El lenguaje admite el reconocimiento de entidades con nombre para identificar y clasificar información en el texto. Entre ellas se incluyen entidades generales, como las entidades Producto y Evento, y las entidades de Información Personal Identificable (IPI). Se puede reconocer una amplia variedad de entidades personales , como nombres, organizaciones, direcciones, números de teléfono, números de cuenta financiera o códigos y números de identificación específicos del país y país o región . Un subconjunto de estas entidades personales es información médica protegida (PHI). Si especifica domain=phi en la solicitud, solo obtendrá las entidades PHI devueltas. La lista completa de las categorías de entidades PII y PHI se puede encontrar en la tabla aquí. Además, el reconocimiento de PII admite la capacidad de especificar categorías de entidades específicas que desee incluir en la respuesta. También permite eliminar o modificar entidades de PII en la respuesta. Las entidades PII se reemplazarán con asteriscos en la propiedad redactedText de la respuesta.

Lea la solicitud NER de ejemplo y la respuesta de ejemplo para ver cómo enviar texto al servicio y qué esperar.

Ejemplos de casos de uso

Es posible que los clientes quieran reconocer varias categorías de entidades nombradas por dos razones principales:

  • Mejorar las funcionalidades de búsqueda : los clientes pueden crear gráficos de conocimiento basados en entidades detectadas en documentos para mejorar la búsqueda de documentos.
  • Mejora o automatización de los procesos empresariales : por ejemplo, al revisar las reclamaciones de seguros, se podrían resaltar entidades reconocidas como nombre y ubicación para facilitar la revisión. O bien, se podría generar un tiquete de soporte con el nombre de un cliente y la empresa desde un correo electrónico automáticamente.

Es posible que los clientes quieran reconocer varias categorías de entidades PII específicamente por varias razones:

  • Aplicar etiquetas de confidencialidad: por ejemplo, en función de los resultados del servicio PII, se podría aplicar una etiqueta de confidencialidad pública a los documentos en los que no se detecten entidades PII. En el caso de los documentos en los que se reconocen direcciones y números de teléfono de EE. UU., se podría aplicar una etiqueta confidencial. Es posible que se use una etiqueta extremadamente confidencial para documentos en los que se reconozcan los números de enrutamiento bancario.
  • Redactar algunas categorías de información personal de documentos para proteger la privacidad: por ejemplo, si los registros de contacto del cliente son accesibles para los representantes de soporte técnico de primera línea, es posible que la empresa quiera redactar la información personal innecesaria del historial del cliente para proteger la privacidad del cliente.
  • Redactar información personal para reducir el sesgo inconsciente: por ejemplo, durante el proceso de revisión de currículos de una empresa, es posible que quieran bloquear el nombre, la dirección y el número de teléfono para ayudar a reducir los sesgos inconscientes de género u otros.
  • Reemplace la información personal de los datos de origen para el aprendizaje automático para reducir la imparcialidad : por ejemplo, si desea quitar nombres que podrían revelar el género al entrenar un modelo de aprendizaje automático, podría usar el servicio para identificarlos y podría reemplazarlos por marcadores de posición genéricos para el entrenamiento del modelo.

Consideraciones al elegir un caso de uso

No usar

  • Solo PII: no usar para escenarios automáticos de clasificación de información o de redacción: cualquier escenario en el que los errores en la redacción de la información personal podrían exponer a las personas al riesgo de robo de identidad y daños físicos o psicológicos deben incluir una supervisión humana cuidadosa.
  • NER y PII: No utilizar en escenarios que usen información personal para un propósito para los cuales no se obtuvo el consentimiento - Por ejemplo, una empresa tiene currículos de solicitantes de empleo anteriores. Los solicitantes no dieron su consentimiento para ser contactados para eventos promocionales cuando presentaron sus currículums. En función de este escenario, los servicios NER y PII no deben utilizarse para identificar la información de contacto con el fin de invitar a los solicitantes anteriores a una presentación comercial.
  • NER y PII: los clientes están prohibidos al uso de este servicio para recopilar información personal del contenido disponible públicamente sin consentimiento de las personas que son objeto de la información personal.
  • NER y PII: no use para escenarios que reemplacen la información personal en el texto con la intención de engañar a las personas.

Consideraciones legales y normativas: las organizaciones deben evaluar posibles obligaciones legales y normativas específicas al usar las herramientas y soluciones de Foundry, que pueden no ser adecuadas para su uso en todos los sectores o escenarios. Además, las herramientas o soluciones de Foundry no están diseñadas para y pueden no usarse de maneras prohibidas en términos de servicio aplicables y códigos de conducta pertinentes.

Características y limitaciones

Dependiendo de su escenario, los datos de entrada y las entidades que desea extraer, podría experimentar diferentes niveles de rendimiento. Las secciones siguientes están diseñadas para ayudarle a comprender los conceptos clave sobre el rendimiento a medida que se aplican al uso de los servicios NER y PII de lenguaje.

Descripción y medición del rendimiento de NER

Dado que se pueden producir errores falsos positivos y falsos negativos, es importante comprender cómo ambos tipos de errores pueden afectar al sistema general. Con reconocimiento de entidades con nombre (NER), se produce un falso positivo cuando una entidad no está presente en el texto, pero el sistema lo reconoce y devuelve. Un falso negativo es cuando una entidad está presente en el texto, pero el sistema no lo reconoce y devuelve.

Descripción del rendimiento de PII

En escenarios de redacción, por ejemplo, falsos negativos podrían provocar filtraciones de información personal. Para escenarios de redacción, considere un proceso para que la revisión humana considere este tipo de error. En escenarios de etiquetas de confidencialidad, tanto falsos positivos como falsos negativos podrían provocar una clasificación incorrecta de los documentos. El acceso puede estar innecesariamente limitado para documentos etiquetados como confidenciales debido a la ocurrencia de un falso positivo. La PII podría filtrarse cuando se produce un falso negativo y se aplica una etiqueta pública.

Puede ajustar el umbral de puntuación de confianza que usa el sistema para ajustar el sistema. Si es más importante identificar todas las instancias potenciales de PII, puede usar un umbral inferior. Esto significa que puede obtener más falsos positivos (datos que no son de PII que se reconocen como entidades PII), pero menos falsos negativos (entidades PII no reconocidas como PII). Si es más importante que el sistema reconozca solo los datos PII verdaderos, puede usar un umbral superior. Es posible que los valores de umbral no tengan un comportamiento coherente entre categorías individuales de entidades PII. Por lo tanto, es fundamental probar el sistema con datos reales que procesará en producción.

Limitaciones del sistema y procedimientos recomendados para mejorar el rendimiento

  • Asegúrese de comprender todas las categorías de entidad para NER y PII que el sistema pueda reconocer. Dependiendo de su escenario, los datos pueden incluir otra información que podría considerarse personal, pero no está cubierta por las categorías que admite actualmente el servicio.

  • El contexto es importante para que el sistema reconozca correctamente todas las categorías de entidad, ya que a menudo es para que los seres humanos reconozcan una entidad. Por ejemplo, sin contexto, un número de diez dígitos es solo un número. Sin embargo, dado contexto como "Usted puede llegar a mí en mi número de teléfono de oficina 2345678901", tanto el sistema como un humano pueden reconocer el número de diez dígitos como un número de teléfono. Incluya siempre el contexto al enviar texto al sistema para obtener el mejor rendimiento posible.

  • Los nombres de persona en particular requieren contexto lingüístico. Envíe tanto contexto como sea posible para una mejor detección de nombres de persona.

  • En el caso de los datos conversacionales, considere enviar más de un solo turno en la conversación para aumentar la probabilidad de que el contexto necesario se incluya junto con las entidades reales.
    En la siguiente conversación, si envía una sola fila a la vez, el número de pasaporte no tendrá ningún contexto asociado a él y no se reconocerá la categoría de información personal identificable del número de pasaporte de la UE.

    Hola, ¿cómo puedo ayudarte hoy?
    Quiero renovar mi pasaporte
    ¿Cuál es su número de pasaporte actual?
    Es 123456789, gracias.

    Sin embargo, si envía toda la conversación, se reconocerá porque se incluye el contexto.

  • A veces se pueden reconocer varias categorías de entidad para la misma entidad. Si se toma el ejemplo anterior:

    Hola, ¿cómo puedo ayudarte hoy?
    Quiero renovar mi pasaporte
    ¿Cuál es su número de pasaporte actual?
    Es 123456789, gracias.

    Varios países diferentes tienen el mismo formato para los números de pasaporte, por lo que se pueden reconocer varias categorías de entidad específicas diferentes. En algunos casos, es posible que el uso de la puntuación de confianza más alta no sea suficiente para elegir la clase de entidad adecuada. Si el escenario depende de la categoría de entidad específica que se reconozca, es posible que tenga que desambiguar el resultado en otro lugar del sistema a través de una revisión humana o un código de validación adicional. Las pruebas exhaustivas con datos reales pueden ayudarle a identificar si es posible que vea múltiples categorías de entidades pertinentes para su escenario.

  • No todas las categorías de entidad se admiten en todos los idiomas para NER y PII. Asegúrese de comprobar el artículo sobre el tipo de entidad de las entidades en el idioma que desea detectar.

  • Se soportan muchas entidades de PII internacionales. De forma predeterminada, las categorías de entidad devueltas son las que coinciden con el código de idioma enviado con la llamada API. Si espera entidades de configuraciones regionales distintas de las especificadas, deberá especificarlas con el parámetro piiCategories. Obtenga más información sobre cómo especificar qué incluirá la respuesta en la referencia de la API REST Fundición de IA de Azure. Obtenga más información sobre las categorías admitidas para cada localización en la documentación sobre los tipos de entidades nombradas.

  • En escenarios de redacción de PII, si usa la versión de la API que incluye el parámetro piiCategories opcional, es importante tener en cuenta todas las categorías de PII que podrían estar presentes en el texto. Si está redactando solo categorías de entidad específicas o categorías de entidad predeterminadas para una configuración regional específica, otras categorías de entidad PII que aparecen inesperadamente en el texto podrán ser reveladas. Por ejemplo, si ha enviado la localidad EN-US y no ha especificado ninguna categoría opcional de PII y un número de licencia de conducir alemana está presente en su texto, se filtrará. Para evitar esto, tendría que especificar la categoría de número de licencia de conducir alemana en el parámetro piiCategories. Además, si ha especificado una o varias categorías con el piiCategories parámetro para la configuración regional especificada, tenga en cuenta que son las únicas categorías que se redactarían. Por ejemplo, si ha enviado el idioma y región de EN-US y ha especificado el número de seguro social (SSN) de EE. UU. como categoría PII para la redacción, cualquier otra categoría EN-US como el número de licencia de conducir de EE. UU. o el número de pasaporte de EE. UU. se filtrarán si aparecen en el texto de entrada.

  • Dado que el servicio PII devuelve categorías de PII que coinciden con el código de idioma de la llamada, considere la posibilidad de comprobar el idioma en el que se encuentra el texto de entrada si no está seguro de qué idioma o configuración regional será. Puede usar la característica Detección de idioma para hacerlo.

  • El servicio PII solo toma texto como entrada. Si está redactando información de documentos en otros formatos, asegúrese de probar cuidadosamente el código de redacción para evitar que las entidades identificadas se filtren accidentalmente.

Consulte también