Perguntas frequentes sobre o Reconhecimento de Entidade Nomeada personalizada

Encontre respostas para perguntas frequentes sobre conceitos e cenários relacionados ao NER personalizado no Azure Language in Foundry Tools.

Como começar a usar o serviço?

Para obter mais informações, consulte nosso início rápido ou como criar projetos.

Quais são os limites de serviço?

Para saber mais, consulteLimites do serviço.

Quantos arquivos marcados são necessários?

Geralmente, uma gama variada de dados marcados representativos gera resultados melhores, considerando que a marcação é feita de maneira precisa, consistente e completa. Não há um número definido de instâncias marcadas para que um modelo tenha um bom desempenho. O desempenho é altamente dependente do esquema e da ambiguidade do esquema. Tipos de entidade ambíguos precisam de mais marcas. O desempenho também depende da qualidade de sua marcação. O número recomendado de instâncias marcadas por entidade é 50.

Quanto tempo deve levar para treinar um modelo?

O processo de treinamento pode levar muito tempo. Como uma estimativa aproximada, o tempo de treinamento esperado para arquivos com um tamanho combinado de 12.800.000 caracteres é de seis horas.

Como criar meu modelo personalizado programaticamente?

Observação

No momento, você só pode criar um modelo usando a API REST ou o Language Studio.

Você pode usar a Documentação de Referência da API REST para criar seus modelos personalizados. Siga este guia de início rápido para começar a criar um projeto e um modelo por meio das APIs, com exemplos de como utilizar a API de Authoring.

Quando estiver pronto para começar a usar seu modelo para fazer previsões, você poderá usar a API REST ou a biblioteca de cliente.

Aqui está uma lista de ações que você toma no Microsoft Foundry:

  • Treine vários modelos no mesmo conjunto de dados em um único projeto.
  • Exiba o desempenho do modelo.
  • Implante e teste seu modelo e adicione ou remova rótulos de seus dados.
  • Escolha como o conjunto de dados é dividido em conjuntos de treinamento e teste.

Seus dados podem ser divididos aleatoriamente em conjuntos de treinamento e teste, mas isso significa que a avaliação do modelo pode não ser baseada no mesmo conjunto de testes, tornando os resultados não compatíveis. Recomendamos que você desenvolva seu próprio conjunto de testes e use-o para avaliar ambos os modelos para medir com precisão as melhorias.

Examine os limites de serviço para entender o número máximo de modelos treinados permitidos por projeto.

Uma pontuação de modelo baixa ou alta garante um desempenho ruim ou bom na produção?

A avaliação do modelo nem sempre pode ser abrangente. O escopo depende dos seguintes fatores:

  • O tamanho do conjunto de testes. Se o conjunto de testes for muito pequeno, as pontuações boas/ruins não serão tão representativas do desempenho real do modelo. Além disso, se um tipo de entidade específico estiver ausente ou sub-representado no conjunto de testes, isso afetará o desempenho do modelo.
  • A diversidade de seus dados. Se seus dados incluirem apenas um número limitado de cenários ou exemplos do texto que você prevê na produção, seu modelo poderá não encontrar todas as situações possíveis. Como resultado, o modelo pode ter um desempenho ruim diante de cenários desconhecidos.
  • A representação dos seus dados. Se o conjunto de dados usado para treinar o modelo não for representativo dos dados que seriam introduzidos no modelo em produção, o desempenho do modelo será muito afetado.

Para obter mais informações, consultea seleção de dados e o design do esquema.

Como melhorar o desempenho do modelo?

  • Exiba a matriz de confusão do modelo. Se você observar que um determinado tipo de entidade geralmente não é previsto corretamente, considere adicionar mais instâncias marcadas para essa classe.

Quando dois tipos de entidade diferentes são frequentemente confundidos entre si, isso indica que o esquema carece de clareza. Para melhorar o desempenho, você deve pensar em combinar esses dois tipos de entidade em um único tipo unificado. Se dois tipos de entidade forem consistentemente confundidos entre si durante a previsão, esse resultado sugerirá ambiguidade em seu esquema. Mesclá-los em um tipo de entidade pode ajudar a melhorar a precisão geral do modelo.

  • Examinar previsões do conjunto de teste. Se um dos tipos de entidade tiver muito mais instâncias marcadas do que as outras, seu modelo poderá tender em direção a esse tipo. Adicione mais dados aos outros tipos de entidade ou remova exemplos do tipo dominante.

  • Saiba mais sobre a seleção de dados e o design de esquema.

  • Examine o conjunto de testes. Examine as entidades previstas junto com as entidades marcadas e obtenha uma compreensão mais clara da precisão do modelo. Essa comparação pode ajudá-lo a determinar se são necessários ajustes no esquema ou no conjunto de marcas.

Por que obtenho resultados diferentes quando treino meu modelo novamente?

  • Ao treinar seu modelo, você pode determinar se deseja que seus dados sejam divididos aleatoriamente em conjuntos de treinamento e teste. Se você optar por continuar, não haverá garantia de que a avaliação do modelo seja executada no mesmo conjunto de testes, o que significa que os resultados podem não ser diretamente comparáveis. Ao fazer isso, você corre o risco de avaliar o modelo em um conjunto de testes diferente, impossibilitar a comparação confiável dos resultados.

  • Se você estiver treinando o mesmo modelo, seu conjunto de testes será o mesmo, mas você poderá notar uma pequena alteração nas previsões feitas pelo modelo. O problema ocorre porque o modelo treinado não tem robustez suficiente. Esse resultado depende de quão bem seus dados representam cenários diferentes, quão distintos são os pontos de dados e da qualidade geral da marcação de dados. Vários fatores influenciam o desempenho do modelo. A robustez do modelo, a distinção e a diversidade do conjunto de dados e a precisão e uniformidade das marcas atribuídas aos dados desempenham funções importantes. Para obter resultados ideais, você deve garantir que seu conjunto de dados não apenas represente com precisão o domínio de destino, mas também ofereça exemplos exclusivos e que todas as marcas sejam aplicadas com consistência e precisão em todos os dados.

Como fazer para obter previsões em diferentes idiomas?

Primeiro, você precisa habilitar a opção multilíngue ao criar seu projeto ou pode habilitá-la posteriormente na página de configurações do projeto. Depois de treinar e implantar seu modelo, você poderá consultá-lo em vários idiomas. Você pode obter resultados variados para idiomas diferentes. Para aprimorar a precisão de qualquer idioma, adicione mais instâncias marcadas ao seu projeto nesse idioma a fim de apresentar mais sintaxe do idioma em questão ao modelo treinado.

Treinei meu modelo, mas não consigo testá-lo

Você precisa implantar seu modelo para testá-lo.

Como fazer para usar meu modelo treinado para previsões?

Depois de implantar o modelo, chame a API de previsão, usando a API REST ou as bibliotecas de cliente.

Segurança e privacidade de dados

Seus dados são armazenados apenas em sua conta de Armazenamento do Azure. O NER personalizada só tem acesso de leitura durante o treinamento. Os usuários NER personalizados têm controle total para exibir, exportar ou excluir qualquer conteúdo do usuário por meio do Foundry ou programaticamente usando a Documentação de Referência da API REST). Para obter mais informações, consulteDados, privacidade e segurança para Linguagem

Como clono meu projeto?

Para clonar seu projeto, você precisa usar a API de exportação para exportar os ativos do projeto e importá-los para um novo projeto. Consulte a Documentação de Referência da API REST para ambas as operações.

Próximas etapas