Nota de transparência para Deteção de Linguagem

Importante

Traduções não ingleses são fornecidas apenas por conveniência. Por favor, consulte a EN-US versão deste documento para a versão definitiva.

O que é uma nota de transparência?

Importante

Este artigo parte do princípio de que está familiarizado com as diretrizes e boas práticas para a Linguagem Azure no Foundry Tools. Para mais informações, consulte a Nota de Transparência para a Linguagem.

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a irão utilizar, as pessoas que serão afetadas por ela e o ambiente onde é implementada. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, as suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar as Notas de Transparência ao desenvolver ou implementar o seu próprio sistema, ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As notas de Transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos princípios de IA. Para saber mais, consulte Princípios de IA Responsável da Microsoft.

Introdução à deteção de línguas

A funcionalidade de deteção de línguas do Language deteta a língua em que um texto de entrada está escrito e reporta um único código linguístico para cada documento submetido no pedido, numa vasta gama de línguas, variantes, dialetos e algumas línguas regionais/culturais. O código da língua é associado a uma pontuação de confiança.

Certifique-se de verificar a lista de linguagens suportadas para garantir que as linguagens de que precisa são suportadas.

Exemplos de casos de uso

A deteção de linguagem é utilizada em múltiplos cenários em vários setores. Alguns exemplos incluem:

  • Pré-processamento de texto de outras funcionalidades da Língua. Outras funcionalidades da Linguagem exigem que um código de linguagem seja enviado no pedido para identificar a língua de origem. Se não souberes a língua de origem do teu texto, podes usar a deteção de língua como pré-processador para obter o código da língua.

  • Detetar linguagens para o fluxo de trabalho empresarial. Por exemplo, se uma empresa receber emails em várias línguas dos clientes, pode usar a deteção de línguas para encaminhar os emails por língua para falantes nativos que consigam comunicar melhor com esses clientes.

Considerações na escolha de um caso de uso

Não usar

  • Não use para ações automáticas sem intervenção humana em cenários de alto risco. Uma pessoa deve sempre rever os dados de origem quando a situação económica, saúde ou segurança de outra pessoa é afetada.

Considerações legais e regulatórias: As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar quaisquer Ferramentas e Soluções da Foundry, que podem não ser adequadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções da Foundry não foram concebidas para e não podem ser usadas de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Características e limitações

Dependendo do seu cenário e dos dados de entrada, pode experienciar diferentes níveis de desempenho. A informação seguinte foi concebida para o ajudar a compreender conceitos-chave sobre desempenho tal como se aplicam à utilização da deteção de linguagem da Language.

Limitações do sistema e melhores práticas para melhorar o desempenho

  • Para entradas que incluem conteúdo de línguas mistas , apenas uma única língua é devolvida. Em geral, a língua com maior representação no conteúdo é devolvida, mas com uma pontuação de confiança mais baixa.
  • O serviço ainda não suporta as versões romanizadas de todas as línguas que não utilizam o alfabeto latino. Por exemplo, o Pinyin não é suportado para chinês e Franco-Arabic não é suportado para árabe.
  • Algumas palavras existem em várias línguas. Por exemplo, "impossível" é comum tanto no inglês como no francês. Para exemplos curtos que incluem palavras ambíguas, pode não encontrar a linguagem correta.
  • Se tiver alguma ideia do país ou região de origem do seu texto, e encontrar línguas mistas, pode usar o countryHintparâmetro para passar um código país/região de 2 letras.
  • Em geral, entradas mais longas têm maior probabilidade de serem corretamente reconhecidas. Frases ou frases completas têm mais probabilidade de serem corretamente reconhecidas do que palavras ou fragmentos de frases isoladas.
  • Nem todas as línguas serão reconhecidas. Certifique-se de verificar a lista de linguagens e scripts suportados.
  • Para distinguir entre múltiplos sistemas de escrita usados para escrever certas línguas, como o cazaque, a funcionalidade de deteção de línguas fornece o nome e o código do sistema de escrita de acordo com a norma ISO 15924 para um conjunto limitado de scripts.
  • O serviço suporta a deteção de texto por linguagem apenas se estiver em alfabeto nativo. Por exemplo, o Pinyin não é suportado para chinês e Franco-Arabic não é suportado para árabe.
  • Devido a lacunas desconhecidas nos nossos dados de treino, certos dialetos e variedades linguísticas menos representadas nos dados web podem não ser devidamente reconhecidos.

Ver também