Détecter la langue
Conseil
Pour plus d’informations, consultez l’onglet Texte et images !
L’API de détection de langue Azure évalue l’entrée de texte et, pour chaque document envoyé, retourne des identificateurs de langue avec un score indiquant la force de l’analyse.
Cette fonctionnalité est utile pour les magasins de contenu qui collectent du texte arbitraire, où la langue est inconnue. Un autre scénario peut impliquer une application de conversation. Si un utilisateur démarre une session avec l’application, la détection de langue peut être utilisée pour déterminer la langue qu’il utilise et vous permettre de configurer les réponses de votre application dans la langue appropriée.
Vous pouvez analyser les résultats de cette analyse pour déterminer la langue utilisée dans le document d’entrée. La réponse retourne également un score, qui reflète la confiance du modèle (valeur comprise entre 0 et 1).
La détection de langue peut fonctionner avec des documents ou des expressions uniques. Il est important de noter que la taille du document doit être inférieure à 5 120 caractères. La limite de taille est définie par document et chaque collection est limitée à 1 000 éléments (ID). Un exemple de charge utile JSON correctement mise en forme que vous pouvez soumettre au service dans le corps de la demande est affiché ici, y compris une collection de documents, chacune contenant un ID unique et le texte à analyser.
Par exemple, le code Python suivant analyse deux documents (courts) pour détecter le langage dans lequel ils sont écrits.
# Assumes code to create TextAnalyticsClient is above...
# Example text to analyze
documents = ["Hello World!", "Bonjour le monde!"]
# Detect language
response = client.detect_language(documents=documents)
for doc in response:
print(f"Document: {doc.id}")
print(f"\tPrimary Language: {doc.primary_language.name}")
print(f"\tISO6391 Name: {doc.primary_language.iso6391_name}")
print(f"\tConfidence Score: {doc.primary_language.confidence_score}")
La réponse contient un résultat pour chaque document de la demande, y compris la langue prédite et une valeur indiquant le niveau de confiance de la prédiction. Le niveau de confiance est une valeur comprise entre 0 et 1, avec des valeurs plus proches de 1 étant un niveau de confiance supérieur. Voici un exemple de réponse du code précédent.
Document: 0
Primary Language: English
ISO6391 Name: en
Confidence Score: 0.9
Document: 1
Primary Language: French
ISO6391 Name: fr
Confidence Score: 0.98
Dans notre exemple, les deux langues présentent une valeur de confiance élevée, principalement parce que le texte est relativement simple et facile à identifier.
Si vous essayez de détecter la langue d’un document qui a du contenu multilingue, par exemple I know a cool AI developer. He has a certain je ne sais quoi!, la réponse peut refléter une certaine ambiguïté. Le contenu de langue mixte dans le même document retourne la langue avec la plus grande représentation dans le contenu, mais avec une évaluation positive inférieure, reflétant la force marginale de cette évaluation.
La dernière condition à prendre en compte est lorsqu’il y a ambiguïté quant au contenu de la langue. Le scénario peut se produire si vous envoyez du contenu textuel que l’analyseur ne peut pas analyser, par exemple en raison de problèmes d’encodage de caractères lors de la conversion du texte en variable de chaîne. Par conséquent, la réponse pour le nom de la langue et le code ISO sont retournés en tant que (unknown) et la valeur du score est retournée en tant que 0.