Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Traduções não em inglês são fornecidas apenas para conveniência. Consulte a EN-US versão deste documento para obter a versão definitiva.
O que é uma nota de transparência?
Importante
Este artigo pressupõe que você esteja familiarizado com as diretrizes e as práticas recomendadas para Azure Language in Foundry Tools. Para obter mais informações, consulte a nota de transparência do idioma.
Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente no qual ela é implantada. A criação de um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, suas funcionalidades e limitações e como obter o melhor desempenho. as Notas de Transparência da Microsoft destinam-se a ajudá-lo a entender como nossa tecnologia de IA funciona, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o meio ambiente. Você pode usar Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.
as notas de Transparência da Microsoft fazem parte de um esforço mais amplo em Microsoft para colocar nossos princípios de IA em prática. Para saber mais, consulte os princípios de IA responsável de Microsoft.
Introdução ao reconhecimento de entidade nomeada e às informações de identificação pessoal (PII)
A linguagem dá suporte ao reconhecimento de entidade nomeada para identificar e categorizar informações em seu texto. Elas incluem entidades gerais, como Produto e Evento, e informações de identificação pessoal (PII). Uma ampla variedade de entidades pessoais , como nomes, organizações, endereços, números de telefone, números de contas financeiras ou códigos, e números de identificação específicos do governo e do país ou região podem ser reconhecidos . Um subconjunto dessas entidades pessoais é informações de saúde protegidas (PHI). Se você especificar domain=phi em sua solicitação, você só obterá as entidades PHI retornadas. A lista completa das categorias de entidade PII e PHI pode ser encontrada na tabela aqui. Além disso, o reconhecimento de PII permite especificar categorias de entidade específicas que você deseja na resposta e ocultar entidades PII na resposta. As entidades PII serão substituídas por asteriscos na propriedade redactedText da resposta.
Leia exemplo de solicitação NER e resposta de exemplo para ver como enviar texto para o serviço e o que esperar de volta.
Exemplos de casos de uso
Os clientes podem querer reconhecer várias categorias de entidades nomeadas dois motivos principais:
- Aprimorar os recursos de pesquisa – os clientes podem criar grafos de conhecimento com base em entidades detectadas em documentos para aprimorar a pesquisa de documentos.
- Aprimorar ou automatizar processos empresariais – por exemplo, ao revisar reclamações de seguro, entidades reconhecidas como nome e local podem ser destacadas para facilitar a revisão. Ou um tíquete de suporte pode ser gerado com o nome de um cliente e a empresa automaticamente a partir de um e-mail.
Os clientes podem querer reconhecer várias categorias de entidades PII especificamente por vários motivos:
- Aplicar rótulos de confidencialidade – por exemplo, com base nos resultados do serviço PII, um rótulo de confidencialidade pública pode ser aplicado a documentos em que nenhuma entidade PII é detectada. Para documentos em que endereços e números de telefone dos EUA são reconhecidos, um rótulo confidencial pode ser aplicado. Um rótulo altamente confidencial pode ser usado para documentos em que os números de roteamento bancário são reconhecidos.
- Redigir algumas categorias de informações pessoais de documentos para proteger a privacidade – por exemplo, se os registros de contato do cliente estiverem acessíveis para representantes de suporte de primeira linha, talvez a empresa queira redigir informações pessoais desnecessárias do cliente do histórico do cliente para preservar a privacidade do cliente.
- Redigir informações pessoais para reduzir o viés inconsciente – por exemplo, durante o processo de revisão de currículos de uma empresa, eles podem querer bloquear nome, endereço e número de telefone para ajudar a reduzir o gênero inconsciente ou outros preconceitos.
- Substitua informações pessoais nos dados de origem para aprendizado de máquina para reduzir a injustiça – por exemplo, se você quiser remover nomes que possam revelar gênero ao treinar um modelo de machine learning, você poderá usar o serviço para identificá-los e substituí-los por espaços reservados genéricos para treinamento de modelo.
Considerações ao escolher um caso de uso
Não usar
- Somente PII – Não use para cenários automáticos de redação ou classificação de informações – qualquer cenário em que falhas na redação de informações pessoais possam expor as pessoas ao risco de roubo de identidade e danos físicos ou psicológicos devem incluir uma supervisão humana cuidadosa.
- NER e PII - Não use cenários que usam informações pessoais para uma finalidade para a qual o consentimento não foi obtido - Por exemplo, uma empresa tem currículos de candidatos anteriores. Os candidatos não deram seu consentimento para serem contatados para eventos promocionais quando enviaram seus currículos. Com base nesse cenário, os serviços NER e PII não devem ser usados para identificar informações de contato com a finalidade de convidar os candidatos anteriores para uma feira.
- NER e PII – Os clientes são proibidos de usar esse serviço para coletar informações pessoais de conteúdo disponível publicamente sem o consentimento das pessoas que são objeto das informações pessoais.
- NER e PII – Não use cenários que substituam informações pessoais no texto com a intenção de enganar as pessoas.
Considerações legais e regulatórias: as organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer Ferramentas e soluções do Foundry, que podem não ser apropriadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções do Foundry não são projetadas e podem não ser usadas de maneiras proibidas em termos de serviço aplicáveis e códigos de conduta relevantes.
Características e limitações
Dependendo do cenário, dos dados de entrada e das entidades que você deseja extrair, você pode experimentar diferentes níveis de desempenho. As seções a seguir têm como objetivo ajudar você a compreender os conceitos-chave sobre desempenho no que se refere ao uso dos serviços de NER e PII do Language.
Entender e medir o desempenho do NER
Como erros falsos positivos e falsos negativos podem ocorrer, é importante entender como os dois tipos de erros podem afetar seu sistema geral. Com o NER (Reconhecimento de Entidade Nomeada), um falso positivo ocorre quando uma entidade não está presente no texto, mas é reconhecida e retornada pelo sistema. Um falso negativo é quando uma entidade está presente no texto, mas não é reconhecida e retornada pelo sistema.
Compreensão do desempenho do PII
Em cenários de redação, por exemplo, falsos negativos podem levar a vazamento de informações pessoais. Para cenários de redação, considere um processo de revisão humana para considerar esse tipo de erro. Para cenários de rótulo de confidencialidade, falsos positivos e falsos negativos podem levar à classificação incorreta de documentos. O acesso pode ser desnecessariamente limitado para documentos rotulados como confidenciais em que ocorreu um falso positivo. As informações de identificação pessoal (PII) podem vazar nos casos em que ocorreu um falso negativo e foi atribuída uma classificação pública.
Você pode ajustar o limite de pontuação de confiança que seu sistema usa para ajustar seu sistema. Se for mais importante identificar todas as instâncias potenciais de PII, você poderá usar um limite inferior. Isso significa que você pode obter mais falsos positivos (dados não PII sendo reconhecidos como entidades PII), mas menos falsos negativos (entidades PII não reconhecidas como PII). Se for mais importante para o sistema reconhecer apenas dados verdadeiros de PII, você poderá usar um limite mais alto. Os valores de limite podem não ter um comportamento consistente entre categorias individuais de entidades PII. Portanto, é fundamental que você teste seu sistema com dados reais que ele processará em produção.
Limitações do sistema e práticas recomendadas para melhorar o desempenho
Certifique-se de entender todas as categorias de entidade para NER e PII que podem ser reconhecidas pelo sistema. Dependendo do seu cenário, seus dados podem incluir outras informações que podem ser consideradas pessoais, mas não são abordadas pelas categorias que o serviço dá suporte no momento.
O contexto é importante para que todas as categorias de entidade sejam reconhecidas corretamente pelo sistema, como geralmente é para os humanos reconhecerem uma entidade. Por exemplo, sem contexto, um número de dez dígitos é apenas um número. No entanto, dado o contexto como "Você pode me alcançar no meu número de telefone do escritório 2345678901", tanto o sistema quanto um humano podem reconhecer o número de dez dígitos como um número de telefone. Inclua sempre o contexto ao enviar texto para o sistema para obter o melhor desempenho possível.
Os nomes de pessoas, em particular, exigem contexto linguístico. Envie o máximo de contexto possível para melhor detecção de nome de pessoa.
Para dados de conversação, considere enviar mais do que uma única troca de mensagens para garantir uma maior probabilidade de que o contexto necessário seja incluído com as entidades reais.
Na conversa a seguir, se você enviar uma única linha de cada vez, o número do passaporte não terá nenhum contexto associado a ela e a categoria PII do Número do Passaporte da UE não será reconhecida.Oi, como posso ajudá-lo hoje?
Quero renovar meu passaporte.
Claro, qual é o seu número de passaporte atual?
É 123456789, obrigado.No entanto, se você enviar toda a conversa, ela será reconhecida porque o contexto está incluído.
Às vezes, várias categorias de entidade podem ser reconhecidas para a mesma entidade. Se usarmos o exemplo anterior:
Oi, como posso ajudá-lo hoje?
Quero renovar meu passaporte.
Claro, qual é o seu número de passaporte atual?
É 123456789, obrigado.Vários países diferentes têm o mesmo formato para números de passaporte, portanto, várias categorias de entidades específicas diferentes podem ser reconhecidas. Em alguns casos, usar a pontuação de confiança mais alta pode não ser suficiente para escolher a classe de entidade certa. Se o cenário depender da categoria de entidade específica que está sendo reconhecida, talvez seja necessário desambiguar o resultado em outro lugar do sistema por meio de uma revisão humana ou de um código de validação adicional. Testes completos com dados reais podem ajudar a identificar se é provável que várias categorias de entidades sejam reconhecidas para o seu cenário.
Nem todas as categorias de entidade têm suporte em todos os idiomas para NER e PII. Consulte o artigo sobre o tipo de entidade das entidades no idioma que deseja detectar.
Há suporte para muitas entidades internacionais de PII. Por padrão, as categorias de entidade retornadas são aquelas que correspondem ao código de idioma enviado com a chamada à API. Se você espera entidades de localidades diferentes da especificada, será necessário especificá-las com o
piiCategoriesparâmetro. Saiba mais sobre como especificar o que sua resposta incluirá na referência da API REST Fábrica de IA do Azure. Saiba mais sobre as categorias com suporte para cada localidade nas documentações de tipos de entidades nomeadas.Em cenários de redação de PII, se você estiver usando a versão da API que inclui o parâmetro
piiCategoriesopcional, é importante considerar todas as categorias de PII que podem estar presentes em seu texto. Se você estiver redigindo apenas categorias de entidade específicas ou categorias de entidade padrão para uma localidade específica, outras categorias de entidade PII que aparecem inesperadamente em seu texto serão vazadas. Por exemplo, se você enviou a localidade EN-US e não especificou nenhuma categoria de PII opcional e um número de carteira de motorista alemão estiver presente em seu texto, ele será vazado. Para evitar isso, você precisaria especificar a categoria Número da Carteira de Habilitação alemã nopiiCategoriesparâmetro. Além disso, se você especificou uma ou mais categorias usando opiiCategoriesparâmetro para a localidade especificada, lembre-se de que essas são as únicas categorias que seriam redigidas. Por exemplo, se você enviou a localidade EN-US e especificou o SSN (Número de Segurança Social) dos EUA como a categoria PII para redação, todas as outras categorias de EN-US, como o Número da Carteira de Habilitação dos EUA ou o Número do Passaporte dos EUA, serão vazadas se aparecerem no texto de entrada.Como o serviço PII retorna categorias PII que correspondem ao código de idioma na chamada, considere verificar o idioma em que o texto de entrada está se você não tiver certeza de qual idioma ou localidade será. Você pode usar o recurso detecção de idioma para fazer isso.
O serviço PII usa apenas texto como entrada. Se você estiver redigindo informações de documentos em outros formatos, certifique-se de testar cuidadosamente o código de redação para garantir que as entidades identificadas não sejam vazadas acidentalmente.
Consulte também
- Nota de transparência para Linguagem
- Nota de transparência para o recurso de saúde
- Nota de transparência para extração de frases-chave
- Nota de transparência para detecção de idioma
- Nota de transparência para resposta a perguntas
- Nota de transparência para Resumo
- Nota de transparência para análise de sentimento
- Privacidade e segurança de dados para idioma
- Diretrizes para integração e uso responsável com o Idioma