Rileva lingua

3 minuti

L'API di rilevamento lingua di Azure valuta l'input di testo e, per ogni documento inviato, restituisce gli identificatori di lingua con un punteggio che indica il livello di attendibilità dell'analisi.

Questa funzionalità è utile per gli archivi contenuto che raccolgono testo arbitrario, in cui la lingua è sconosciuta. Un altro scenario potrebbe comportare un'applicazione di chat. Se un utente avvia una sessione con l'applicazione, è possibile usare il rilevamento della lingua per determinare quale lingua usa e consentire di configurare le risposte dell'applicazione nella lingua appropriata.

È possibile analizzare i risultati di questa analisi per determinare quale lingua viene usata nel documento di input. La risposta restituisce anche un punteggio, che riflette l'attendibilità del modello (un valore compreso tra 0 e 1).

Il rilevamento della lingua può funzionare con documenti o singole frasi. È importante notare che la dimensione del documento deve essere inferiore a 5.120 caratteri. Il limite di dimensioni è per documento e ogni raccolta è limitata a 1.000 elementi (ID). Di seguito è riportato un esempio di payload JSON formattato correttamente che è possibile inviare al servizio nel corpo della richiesta, inclusa una raccolta di documenti , ognuno contenente un ID univoco e il testo da analizzare.

Ad esempio, il codice Python seguente analizza due documenti (brevi) per rilevare il linguaggio in cui sono scritti.

# Assumes code to create TextAnalyticsClient is above...

# Example text to analyze
documents = ["Hello World!", "Bonjour le monde!"]

# Detect language
response = client.detect_language(documents=documents)
for doc in response:
    print(f"Document: {doc.id}")
    print(f"\tPrimary Language: {doc.primary_language.name}")
    print(f"\tISO6391 Name: {doc.primary_language.iso6391_name}")
    print(f"\tConfidence Score: {doc.primary_language.confidence_score}")

La risposta contiene un risultato per ogni documento nella richiesta, inclusa la lingua stimata e un valore che indica il livello di attendibilità della stima. Il livello di attendibilità è un valore compreso tra 0 e 1, con valori più vicini a 1 che sono un livello di confidenza superiore. Ecco un esempio di risposta del codice precedente.

Document: 0
        Primary Language: English
        ISO6391 Name: en
        Confidence Score: 0.9
Document: 1
        Primary Language: French
        ISO6391 Name: fr
        Confidence Score: 0.98

In questo esempio entrambe le lingue indicano un valore di attendibilità elevato, in particolare perché il testo è relativamente semplice e la lingua è facilmente identificabile.

Se si tenta di rilevare la lingua di un documento con contenuto multilingue, ad esempio I know a cool AI developer. He has a certain je ne sais quoi!, la risposta potrebbe riflettere alcune ambiguità. Il contenuto linguistico misto all'interno dello stesso documento restituisce la lingua con la rappresentazione più grande nel contenuto, ma con una classificazione positiva inferiore, riflettendo la forza marginale di tale valutazione.

L'ultima condizione da considerare è quando si verifica un'ambiguità nel contenuto linguistico. Lo scenario può verificarsi se si invia contenuto testuale che l'analizzatore non è in grado di analizzare, ad esempio a causa di problemi di codifica dei caratteri durante la conversione del testo in una variabile stringa. Di conseguenza, la risposta per il nome della lingua e il codice ISO verranno restituiti come (unknown) e il valore del punteggio verrà restituito come 0.

Commenti e suggerimenti

Questa pagina è stata utile?