Termini chiave di Traduttore personalizzato

La tabella seguente presenta un elenco di termini chiave che è possibile trovare quando si lavora con Custom Translator.

Termine o locuzione Definizione
Lingua di origine La lingua di origine è la lingua iniziale che si desidera convertire in un'altra lingua (la "destinazione").
Lingua di destinazione La lingua di destinazione è quella che si vuole che restituisca il sistema di traduzione automatica dopo che ha ricevuto la lingua di origine.
File monolingue Un file monolingue contiene una sola lingua e non è associato a un altro file in una lingua diversa.
File paralleli Un file parallelo è una combinazione dei due file con testo corrispondente. Uno dei file contiene la lingua di origine e l'altro contiene la lingua di destinazione.
Allineamento di frasi Il set di dati parallelo deve allineare le frasi a frasi che rappresentano lo stesso testo in entrambe le lingue. Ad esempio, in un file parallelo di origine la prima frase deve corrispondere teoricamente alla prima frase nel file parallelo di destinazione.
Testo allineato Uno dei passaggi più importanti della convalida dei file è l'allineamento delle frasi nei documenti paralleli. I concetti vengono espressi in modo diverso in diverse lingue. Le varie lingue presentano inoltre un diverso ordine delle parole. Questo procedura esegue l'allineamento delle frasi con lo stesso contenuto in modo che possano essere utilizzate per il training. Un basso livello di allineamento delle frasi indica che potrebbe essersi verificato un problema con uno o con entrambi i file.
Separazione/Annullamento della separazione delle parole La separazione delle parole è la funzione di contrassegnare i limiti tra le parole. Molti sistemi di scrittura usano uno spazio per indicare tale limite. Word unbreaking si riferisce alla rimozione di qualsiasi marcatore visibile inserito tra le parole in un passaggio precedente.
Delimitatori I delimitatori sono modi per suddividere una frase in segmenti o elementi che delimitano il margine tra due frasi. Ad esempio, in inglese le parole sono delimitate da spazi, le frasi dai due punti e dal punto e virgola e i periodi dal punto.
File di training Un file di training viene usato per insegnare al sistema di traduzione automatica a eseguire il mapping da una lingua (origine) a un'altra lingua (destinazione). Maggiore è il numero di dati forniti, maggiore è il livello di prestazioni del sistema.
File di ottimizzazione Questi file sono spesso derivati in modo casuale dal set di training (se non si seleziona un set di ottimizzazione). Le frasi vengono selezionate automaticamente e usate per ottimizzare il sistema e assicurarsi che funzioni correttamente. Se si vuole creare un modello di traduzione per utilizzo generico e creare file di ottimizzazione personalizzati, assicurarsi che siano un set casuale di frasi tra domini
File di test Questi file sono spesso file derivati, selezionati in modo casuale dal set di training (se non si seleziona alcun set di test). Lo scopo di queste frasi è valutare l'accuratezza del modello di traduzione. Per assicurarsi che il sistema traduca correttamente queste frasi, è possibile creare un set di test e caricarlo nel traduttore. In questo modo si garantisce che le frasi vengano usate nella valutazione del sistema (la generazione di un BLEU punteggio).
File combinato È un tipo di file in cui le frasi di origine e quelle tradotte sono incluse nello stesso file. Formati di file supportati (TMX, XLIFF, XLFICI, e XLSX).
File di archivio Un file che contiene altri file. I formati di file supportati sono quelli con estensione zip, gz e tgz.
BLEU Punteggio BLEU è il metodo standard del settore per valutare la "precisione" o l'accuratezza del modello di traduzione. Anche se esistono altri metodi di valutazione, Microsoft Translator si basa BLEU sul metodo per segnalare l'accuratezza ai proprietari dei progetti.