Nota de transparência para o Reconhecimento de Entidade Nomeada, incluindo Informação Pessoal Identificável (PII)

Importante

Traduções não ingleses são fornecidas apenas por conveniência. Por favor, consulte a EN-US versão deste documento para a versão definitiva.

O que é uma nota de transparência?

Importante

Este artigo parte do princípio de que está familiarizado com as diretrizes e boas práticas para a Linguagem Azure no Foundry Tools. Para mais informações, consulte a Nota de Transparência para a Linguagem.

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a irão utilizar, as pessoas que serão afetadas por ela e o ambiente onde é implementada. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, as suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar as Notas de Transparência ao desenvolver ou implementar o seu próprio sistema, ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As notas de Transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos princípios de IA. Para saber mais, consulte Princípios de IA Responsável da Microsoft.

Introdução ao Reconhecimento de Entidades Nomeadas e Informação Pessoal Identificável (PII)

A linguagem suporta o reconhecimento de entidades nomeadas para identificar e categorizar informação no seu texto. Estas incluem entidades gerais, como Produtos e Eventos e entidades de Informação Pessoal Identificável (PII). Pode ser reconhecida uma grande variedade de entidades pessoais , como nomes, organizações, moradas, números de telefone, números ou códigos de contas financeiras e números de identificação específicos do governo e do país ou região . Um subconjunto destas entidades pessoais é a informação de saúde protegida (PHI). Se especificar domínio=phi no seu pedido, só receberá devolvidas as entidades PHI. A lista completa das categorias de PII e PHI pode ser encontrada na tabela aqui. Além disso, o reconhecimento de PII suporta a capacidade de especificar as categorias de entidades desejadas na resposta e de ocultar as entidades PII na resposta. As entidades de PII serão substituídas por asteriscos na redactedText propriedade da resposta.

Leia exemplos de pedido NER e exemplo de resposta para ver como enviar mensagem de texto ao serviço e o que esperar de volta.

Exemplos de casos de uso

Os clientes podem querer reconhecer várias categorias de entidades nomeadas por duas razões principais:

  • Melhorar as capacidades de pesquisa - Os clientes podem construir grafos de conhecimento baseados nas entidades detetadas nos documentos para melhorar a pesquisa documental.
  • Melhorar ou automatizar processos de negócio – Por exemplo, ao analisar reclamações de seguro, entidades reconhecidas como nome e localização podem ser destacadas para facilitar a análise. Ou pode ser gerado automaticamente um pedido de suporte com o nome e a empresa do cliente a partir de um email.

Os clientes podem querer reconhecer várias categorias de entidades de PII especificamente por várias razões:

  • Aplicar etiquetas de sensibilidade - Por exemplo, com base nos resultados do serviço de PII, pode ser aplicada uma etiqueta pública de sensibilidade a documentos onde não são detetadas entidades PII. Para documentos onde são reconhecidos endereços e números de telefone nos EUA, pode ser aplicada uma etiqueta confidencial. Um rótulo altamente confidencial pode ser usado para documentos onde os números de roteamento bancário são identificados.
  • Eliminar algumas categorias de informação pessoal dos documentos para proteger a privacidade – Por exemplo, se os registos de contacto do cliente forem acessíveis aos representantes de suporte de primeira linha, a empresa pode querer eliminar informações pessoais desnecessárias do cliente do histórico para preservar a privacidade do cliente.
  • Rediga informações pessoais para reduzir o preconceito inconsciente – Por exemplo, durante o processo de revisão do currículo de uma empresa, pode querer bloquear nome, morada e número de telefone para ajudar a reduzir preconceitos inconscientes de género ou outros.
  • Substituir informações pessoais nos dados de origem para aprendizagem automática para reduzir a injustiça – Por exemplo, se quiser remover nomes que possam revelar género ao treinar um modelo de aprendizagem automática, pode usar o serviço para os identificar e substituí-los por marcadores genéricos para treino de modelos.

Considerações na escolha de um caso de uso

Não usar

  • Apenas PII - Não utilizar para cenários automáticos de redação ou classificação de informação – Qualquer cenário em que a falha em redigir informações pessoais possa expor as pessoas ao risco de roubo de identidade e danos físicos ou psicológicos deve incluir uma supervisão humana cuidadosa.
  • NER e PII - Não utilizar em cenários que utilizam informações pessoais para fins para os quais não foi obtido consentimento - Por exemplo, uma empresa tem currículos de candidatos anteriores. Os candidatos não deram consentimento para serem contactados em eventos promocionais quando submeteram os seus currículos. Com base neste cenário, tanto os serviços NER como os PII não devem ser usados para identificar informações de contacto com o objetivo de convidar os candidatos anteriores para uma feira comercial.
  • NER e PII - Os clientes estão proibidos de usar este serviço para recolher informações pessoais de conteúdos públicos sem consentimento da(s) pessoa(s) que são objeto da informação pessoal.
  • NER e PII - Não utilizar em cenários que substituam informações pessoais em texto com a intenção de enganar as pessoas.

Considerações legais e regulatórias: As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar quaisquer Ferramentas e Soluções da Foundry, que podem não ser adequadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções da Foundry não foram concebidas para e não podem ser usadas de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Características e limitações

Dependendo do seu cenário, dos dados de entrada e das entidades que pretende extrair, poderá experienciar diferentes níveis de desempenho. As secções seguintes foram concebidas para o ajudar a compreender conceitos-chave sobre desempenho tal como se aplicam à utilização da Linguagem NER e dos serviços de PII.

Compreender e medir o desempenho da NER

Como podem ocorrer tanto erros falsos positivos como falsos negativos, é importante compreender como ambos os tipos de erros podem afetar o seu sistema como um todo. Com o Reconhecimento de Entidade Nomeada (NER), ocorre um falso positivo quando uma entidade não está presente no texto, mas é reconhecida e devolvida pelo sistema. Um falso negativo ocorre quando uma entidade está presente no texto, mas não é reconhecida e devolvida pelo sistema.

Compreender o desempenho de Informações Pessoais Identificáveis

Em cenários de redação, por exemplo, falsos negativos podem levar a fuga de informação pessoal. Para cenários de redação, considere um processo de revisão humana para ter em conta este tipo de erro. Para cenários de etiquetas de sensibilidade, tanto falsos positivos como falsos negativos podem levar à má classificação de documentos. O público pode ser desnecessariamente limitado para documentos rotulados como confidenciais devido a um falso positivo. As PII podem ser divulgadas quando ocorreu um falso negativo e foi aplicada uma etiqueta pública.

Pode ajustar o limiar de confiança que o seu sistema utiliza para afinar o seu desempenho. Se for mais importante identificar todas as potenciais instâncias de PII, pode usar um limiar mais baixo. Isto significa que pode ter mais falsos positivos (dados não-PII reconhecidos como entidades PII), mas menos falsos negativos (entidades PII não reconhecidas como PII). Se for mais importante para o seu sistema reconhecer apenas dados verdadeiros de PII, pode usar um limiar mais elevado. Os valores limiar podem não ter um comportamento consistente entre categorias individuais de entidades PII. Por isso, é fundamental testar o seu sistema com dados reais que irá processar em produção.

Limitações do sistema e melhores práticas para melhorar o desempenho

  • Certifique-se de que compreende todas as categorias de entidades para NER e PII que possam ser reconhecidas pelo sistema. Dependendo do seu cenário, os seus dados podem incluir outras informações que podem ser consideradas pessoais, mas que não estão abrangidas pelas categorias que o serviço atualmente suporta.

  • O contexto é importante para que todas as categorias de entidades sejam corretamente reconhecidas pelo sistema, tal como muitas vezes acontece para os humanos reconhecerem uma entidade. Por exemplo, sem contexto, um número de dez dígitos é apenas um número. No entanto, dado contexto como "Pode contactar-me pelo número de telefone do meu escritório 2345678901", tanto o sistema como uma pessoa pode reconhecer o número de dez dígitos como um número de telefone. Inclua sempre contexto ao enviar texto para o sistema para obter o melhor desempenho possível.

  • Nomes de pessoas, em particular, requerem contexto linguístico. Envia o máximo de contexto possível para uma melhor deteção do nome da pessoa.

  • Para dados conversacionais, considere enviar mais do que um turno na conversa para garantir uma maior probabilidade de que o contexto necessário seja incluído com as entidades reais.
    Na conversa que se segue, se enviar uma única fila de cada vez, o número do passaporte não terá qualquer contexto associado e a categoria PII do Número de Passaporte da UE não será reconhecida.

    Olá, em que posso ajudar hoje?
    Quero renovar o meu passaporte
    Claro, qual é o teu número de passaporte atual?
    É 123456789, obrigado.

    No entanto, se enviares toda a conversa, será reconhecida porque o contexto está incluído.

  • Por vezes, múltiplas categorias de entidades podem ser reconhecidas para a mesma entidade. Se tomarmos o exemplo anterior:

    Olá, em que posso ajudar hoje?
    Quero renovar o meu passaporte
    Claro, qual é o teu número de passaporte atual?
    É 123456789, obrigado.

    Vários países diferentes têm o mesmo formato para os números de passaporte, pelo que podem ser reconhecidas várias categorias específicas de entidades. Em alguns casos, usar a pontuação de confiança mais alta pode não ser suficiente para escolher a classe de entidade correta. Se o seu cenário depender da categoria específica de entidade a ser reconhecida, poderá ser necessário desambiguar o resultado noutro local do seu sistema, seja através de uma revisão humana ou de um código de validação adicional. Testes rigorosos em dados reais podem ajudá-lo a identificar se é provável que encontre várias categorias de entidades a serem reconhecidas para o seu cenário.

  • Nem todas as categorias de entidades são suportadas em todas as linguagens tanto para NER como para PII. Certifique-se de verificar o artigo sobre tipos de entidade para obter informações sobre entidades na linguagem que pretende detetar.

  • Muitas entidades internacionais de dados pessoais identificáveis são suportadas. Por defeito, as categorias de entidades devolvidas são aquelas que correspondem ao código de linguagem enviado com a chamada API. Se esperar entidades provenientes de locais diferentes daquele especificado, terá de as especificar com o piiCategories parâmetro. Saiba mais sobre como especificar o que a sua resposta incluirá na referência da API Azure AI Foundry REST. Saiba mais sobre as categorias suportadas para cada local na documentação dos tipos de entidades nomeadas.

  • Em cenários de redação de PIIs, se estiver a usar a versão da API que inclui o parâmetro piiCategoriesopcional , é importante considerar todas as categorias de PII que possam estar presentes no seu texto. Se estiver a redigir apenas categorias específicas de entidades ou as categorias de entidade padrão para uma localização específica, outras categorias de entidades PII que apareçam inesperadamente no seu texto serão divulgadas. Por exemplo, se enviou o local EN-US e não especificou nenhuma categoria de PII opcional e estiver presente um número de carta de condução alemã na sua mensagem, será divulgado. Para evitar isto, teria de especificar a categoria do Número da Carta de Condução Alemã no piiCategories parâmetro. Além disso, se especificou uma ou mais categorias usando o piiCategories parâmetro para a localidade especificada, esteja ciente de que essas são as únicas categorias que seriam censuradas. Por exemplo, se enviou a localização EN-US e especificou o Número de Segurança Social dos EUA (SSN) como categoria de PII para redação, então quaisquer outras categorias EN-US como Número de Carta de Condução dos EUA ou Número de Passaporte dos EUA seriam divulgadas se aparecerem no texto de entrada.

  • Como o serviço de PII devolve categorias de PII que correspondem ao código da língua na chamada, considere verificar a língua em que o texto de entrada está se não tiver a certeza de que língua ou local será. Pode usar a funcionalidade de Deteção de Língua para isso.

  • O serviço de PII só aceita texto como entrada. Se estiver a redigir informações de documentos noutros formatos, certifique-se de testar cuidadosamente o seu código de redação para garantir que as entidades identificadas não são vazadas acidentalmente.

Ver também