Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A tabela a seguir apresenta uma lista de termos-chave que você pode encontrar ao trabalhar com o Tradutor Personalizado.
| Palavra ou frase | Definição |
|---|---|
| Idioma de Origem | O idioma de origem é o idioma inicial que você deseja converter para outro idioma (o "destino"). |
| Idioma de Destino | A língua de chegada é a língua que pretende que a tradução automática forneça depois de receber a língua de partida. |
| Ficheiro Monolingue | Um ficheiro monolingue tem um único idioma não emparelhado com outro ficheiro de um idioma diferente. |
| Arquivos paralelos | Um arquivo paralelo é a combinação de dois arquivos com o texto correspondente. Um ficheiro tem a língua de partida. O outro tem a língua de chegada. |
| Alinhamento de frases | O conjunto de dados paralelo deve alinhar frases a frases que representam o mesmo texto em ambos os idiomas. Por exemplo, em um arquivo paralelo de origem, a primeira frase deveria, em teoria, ser mapeada para a primeira frase no arquivo paralelo de destino. |
| Texto alinhado | Uma das etapas mais importantes da validação de arquivos é alinhar as frases nos documentos paralelos. As coisas são expressas de forma diferente em línguas diferentes. Além disso, línguas diferentes têm ordens de palavras diferentes. Esta etapa faz o trabalho de alinhar as frases com o mesmo conteúdo para que possam ser usadas para treinamento. Um alinhamento de frase baixo indica que pode haver algo errado com um ou ambos os arquivos. |
| Quebra de palavras/Ininterrupto | A quebra de palavras é a função de marcar os limites entre as palavras. Muitos sistemas de escrita usam um espaço para denotar a fronteira entre as palavras. Unbreaking de palavras refere-se à remoção de qualquer marcador visível inserido entre palavras numa etapa anterior. |
| Delimitadores | Delimitadores são as formas como uma frase é dividida em segmentos ou delimita a margem entre frases. Por exemplo, em inglês, espaços delimitam palavras, dois pontos e ponto-e-vírgula delimitam orações e períodos delimitam frases. |
| Dossiês de Formação | Um arquivo de treinamento é usado para ensinar o sistema de tradução automática a mapear de um idioma (a fonte) para um idioma de destino (o destino). Quanto mais dados você fornecer, melhor será o desempenho do sistema. |
| Ajustando arquivos | Esses arquivos geralmente são derivados aleatoriamente do conjunto de treinamento (se você não selecionar um conjunto de ajustes). As frases são selecionadas automaticamente e usadas para ajustar o sistema e garantir que ele esteja funcionando corretamente. Se você deseja criar um modelo de tradução de uso geral e criar seus próprios arquivos de ajuste, certifique-se de que eles sejam um conjunto aleatório de frases entre domínios |
| Arquivos de teste | Esses arquivos geralmente são arquivos derivados, selecionados aleatoriamente do conjunto de treinamento (se você não selecionar nenhum conjunto de teste). O objetivo destas frases é avaliar a precisão do modelo de tradução. Para garantir que o sistema traduza essas frases com precisão, você pode criar um conjunto de testes e enviá-lo para o tradutor. Isso garante que as frases sejam usadas na avaliação do sistema (a geração de uma BLEU pontuação). |
| Arquivo de combinação | Um tipo de arquivo no qual a fonte e as frases traduzidas estão contidas no mesmo arquivo. Formatos de ficheiro suportados (TMX, XLIFF, XLF, ICIe XLSX). |
| Arquivo morto | Um arquivo que contém outros arquivos. Formatos de ficheiro suportados (zip, gz, tgz). |
BLEU Pontuação |
BLEU é o método padrão da indústria para avaliar a "precisão" ou precisão do modelo de tradução. Embora existam outros métodos de avaliação, o Microsoft Translator confia BLEU no método para relatar a precisão aos proprietários do projeto. |