Nota de transparência para a Análise de Sentimento

Importante

Traduções não ingleses são fornecidas apenas por conveniência. Por favor, consulte a EN-US versão deste documento para a versão definitiva.

O que é uma nota de transparência?

Importante

Este artigo parte do princípio de que está familiarizado com as diretrizes e boas práticas para a Linguagem Azure no Foundry Tools. Para mais informações, consulte a Nota de Transparência para a Linguagem.

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a irão utilizar, as pessoas que serão afetadas por ela e o ambiente onde é implementada. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, as suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar as Notas de Transparência ao desenvolver ou implementar o seu próprio sistema, ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As notas de Transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos princípios de IA. Para saber mais, consulte Microsoft Princípios da IA.

Os fundamentos da Análise do Sentimento

Introdução

A funcionalidade de Análise de Sentimento da Language avalia o texto e devolve pontuações de sentimento e etiquetas para cada frase. Isto é útil para detetar sentimentos positivos, neutros e negativos nas redes sociais, avaliações de clientes, fóruns de discussão e outros cenários de produtos e serviços.

Capacidades

Comportamento do sistema

A análise de sentimento fornece rótulos de sentimento (como "negativo", "neutro" e "positivo") baseados na pontuação de confiança mais alta encontrada pelo serviço ao nível da frase e do documento. Esta funcionalidade também devolve pontuações de confiança entre 0 e 1 para cada documento e frase para sentimentos positivos, neutros e negativos. Pontuações mais próximas de 1 indicam uma maior confiança na classificação do rótulo, enquanto pontuações mais baixas indicam menor confiança. Por padrão, o rótulo global de sentimento é o maior das três pontuações de confiança, no entanto, pode definir um limiar para qualquer uma ou todas as pontuações individuais de confiança, dependendo do que funciona melhor para o seu cenário. Para cada documento ou cada frase, as pontuações previstas associadas às etiquetas (positiva, negativa e neutra) somam 1. Leia mais informações sobre rótulos de sentimento e pontuações.

Além disso, a funcionalidade opcional de mineração de opinião devolve aspetos (como os atributos de produtos ou serviços) e as suas palavras de opinião associadas. Para cada aspeto, é devolvido um rótulo de sentimento global juntamente com pontuações de confiança para sentimentos positivos e negativos. Por exemplo, a frase "O restaurante tinha ótima comida e o nosso empregado era simpático" tem dois aspetos, "comida" e "empregado", e as respetivas palavras de opinião são "ótimo" e "simpático". Os dois aspetos recebem, portanto, classificação positivede sentimento , com pontuações de confiança entre 0 e 1,0. Leia mais detalhes sobre mineração de opinião.

Veja a resposta JSON para este exemplo.

Casos de uso

A Análise de Sentimento pode ser utilizada em múltiplos cenários em vários setores. Alguns exemplos incluem:

  • Monitorizar as tendências de feedback positivo e negativo em conjunto. Após a introdução de um novo produto, um retalhista pode usar o serviço de sentiment para monitorizar várias redes sociais em busca de menções ao produto e ao sentimento associado. O sentimento de tendência pode ser usado em reuniões sobre o produto para tomar decisões de negócios sobre o novo produto.
  • Realize uma análise de sentimento nos resultados brutos dos inquéritos para obter informações para análise e acompanhamento com os participantes (clientes, colaboradores, consumidores, etc.). Uma loja com a política de acompanhar as avaliações negativas dos clientes dentro de 24 horas e as avaliações positivas numa semana pode usar o serviço de análise de sentimentos para categorizar as avaliações e facilitar o acompanhamento atempado.
  • Ajude a equipa de apoio ao cliente a melhorar o envolvimento através de insights recolhidos a partir da análise em tempo real das interações. Extrair insights das chamadas transcritas de atendimento ao cliente para compreender melhor as interações e tendências entre clientes e agentes, de modo a melhorar o envolvimento com os clientes.

Considerações na escolha de um caso de uso

  • Evite ações automáticas sem intervenção humana para cenários de grande impacto. Por exemplo, os bónus dos funcionários não devem ser automaticamente baseados nas pontuações de sentimento das mensagens de interação de atendimento ao cliente. Os dados de origem devem sempre ser revistos quando a situação económica, saúde ou segurança de uma pessoa é afetada.
  • Considere cuidadosamente cenários fora do domínio da revisão de produtos e serviços. Como o modelo é treinado com revisões de produtos e serviços, o sistema pode não reconhecer com precisão a linguagem focada no sentimento noutros domínios. Certifica-te sempre de testar o sistema em conjuntos de dados de testes operacionais para garantir que obténs o desempenho de que precisas. O seu conjunto de dados de testes operacionais deve refletir os dados reais que o seu sistema verá em produção, com todas as características e variações que terá quando o seu produto for implementado. Dados sintéticos e testes que não refletem o seu cenário de ponta a ponta provavelmente não serão suficientes.
  • Considere cuidadosamente cenários que tomem medidas automáticas para filtrar ou remover conteúdo. Pode adicionar um ciclo de revisão humana e/ou reclassificar conteúdo (em vez de o filtrar completamente) se o seu objetivo for garantir que o conteúdo cumpre os padrões da sua comunidade.
  • Considerações legais e regulatórias: As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar quaisquer Ferramentas e Soluções da Foundry, que podem não ser adequadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções da Foundry não foram concebidas para e não podem ser usadas de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Limitações

Dependendo do seu cenário e dos dados de entrada, pode experienciar diferentes níveis de desempenho. A informação seguinte foi concebida para o ajudar a compreender as limitações do sistema e conceitos-chave sobre desempenho tal como se aplicam à Análise de Sentimento.

Principais limitações a considerar:

  • O modelo de aprendizagem automática utilizado para prever o sentimento foi treinado com análises de produtos e serviços. Isto significa que o serviço terá um desempenho mais preciso para cenários semelhantes e menos preciso para cenários fora do âmbito das análises de produtos e serviços. Por exemplo, as avaliações de pessoal podem usar uma linguagem diferente para descrever o sentimento e, por isso, pode não obter os resultados ou o desempenho que esperaria. Uma palavra como "forte" na expressão "Shafali foi um líder forte" pode não obter um sentimento positivo porque a palavra forte pode não ter um sentimento claramente positivo nas avaliações de produtos e serviços.

  • Como o modelo é treinado com revisões de produtos e serviços, dialetos e linguagens menos representados no conjunto de dados podem ter menor precisão.

  • O modelo não compreende a importância relativa das várias frases enviadas em conjunto. Como o sentimento global é uma pontuação agregada simples das frases, a pontuação global de sentimento pode não concordar com a interpretação humana, que teria em conta o facto de algumas frases poderem ter mais importância na determinação do sentimento global.

  • O modelo pode não reconhecer sarcasmo. O contexto, como o tom de voz, a expressão facial, o autor do texto, o público do texto ou uma conversa prévia, são frequentemente importantes para compreender o sentimento. No caso do sarcasmo, é frequentemente necessário contexto adicional para reconhecer se uma entrada de texto é positiva ou negativa. Dado que o serviço só vê a entrada de texto, classificar o sentimento sarcástico pode ser menos preciso. Por exemplo, isso era incrível, podia ser positivo ou negativo dependendo do contexto, tom de voz, expressão facial, autor e público.

  • A magnitude da pontuação de confiança não reflete a intensidade do sentimento. Baseia-se na confiança do modelo para um determinado sentimento (positivo, neutro, negativo). Portanto, se o seu sistema depende da intensidade do sentimento, considere usar um revisor humano ou uma lógica de pós-processamento nas pontuações individuais de opinião ou no texto original para ajudar a classificar a intensidade do sentimento.

  • Embora tenhamos feito esforços para reduzir o viés apresentado pelos nossos modelos, as limitações associadas aos modelos de linguagem, incluindo o potencial de produzirem resultados imprecisos, pouco fiáveis e enviesados, aplicam-se ao modelo de Análise do Sentimento da Linguagem. Esperamos que o modelo tenha alguns falsos negativos e falsos positivos por agora, mas estamos ansiosos por recolher feedback dos utilizadores para apoiar o nosso trabalho contínuo de melhoria deste serviço.

Boas práticas para melhorar o desempenho do sistema

Como o sentimento é algo subjetivo, não é possível fornecer uma estimativa universalmente aplicável do desempenho para o modelo. Em última análise, o desempenho depende de vários fatores, como o domínio do assunto, as características do texto processado, o caso de uso do sistema e a forma como as pessoas interpretam a saída do sistema.

Pode encontrar que os índices de confiança para sentimentos positivos, negativos e neutros variam consoante o seu cenário. Em vez de usar o sentimento global ao nível da frase para o documento ou frase completa, pode estabelecer um limiar para qualquer ou todas as pontuações de confiança individuais do sentimento que melhor se adequem ao seu cenário. Por exemplo, se for mais importante identificar todas as possíveis instâncias de sentimento negativo, pode usar um limiar mais baixo para o sentimento negativo em vez de olhar para o rótulo global de sentimento. Isto significa que pode ter mais falsos positivos (texto neutro ou positivo reconhecido como sentimento negativo), mas menos falsos negativos (texto negativo não reconhecido como sentimento negativo). Por exemplo, pode querer ler todo o feedback do produto que tenha algum potencial sentimento negativo para obter ideias de melhoria do produto. Nesse caso, pode usar apenas a pontuação negativa de sentimento e definir um limiar mais baixo. Isto pode levar a trabalho extra porque acabarias por ler algumas avaliações que não são negativas, mas é mais provável que identifiques oportunidades de melhoria. Se for mais importante para o seu sistema reconhecer apenas texto negativo verdadeiro, pode usar um limiar mais alto ou usar o rótulo de sentimento geral. Por exemplo, pode querer responder a avaliações negativas de produtos. Se quiser minimizar o trabalho de ler e responder a avaliações negativas, só pode usar a previsão geral de sentimento e ignorar as pontuações individuais de sentimento. Embora possa haver algum sentimento negativo previsto que não perceba, é provável que receba a maioria das avaliações verdadeiramente negativas. Os valores limiar podem não ter um comportamento consistente entre cenários. Por isso, é fundamental testar o seu sistema com dados reais que irá processar em produção.

Ver também