Taal detecteren

Voltooid

Tip

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

De Api voor taaldetectie van Azure evalueert tekstinvoer en retourneert voor elk verzonden document taal-id's met een score die de sterkte van de analyse aangeeft.

Deze mogelijkheid is handig voor inhoudsarchieven die willekeurige tekst verzamelen, waarbij de taal onbekend is. Een ander scenario kan een chattoepassing omvatten. Als een gebruiker een sessie met de toepassing start, kan taaldetectie worden gebruikt om te bepalen welke taal ze gebruiken en waarmee u de antwoorden van uw toepassing in de juiste taal kunt configureren.

U kunt de resultaten van deze analyse parseren om te bepalen welke taal wordt gebruikt in het invoerdocument. Het antwoord retourneert ook een score, die het vertrouwen van het model weergeeft (een waarde tussen 0 en 1).

Taaldetectie kan werken met documenten of één woordgroep. Het is belangrijk om te weten dat de documentgrootte kleiner moet zijn dan 5120 tekens. De groottelimiet is per document en elke verzameling is beperkt tot 1000 items (id's). Hier ziet u een voorbeeld van een correct opgemaakte JSON-nettolading die u kunt indienen bij de service in de aanvraagbody, inclusief een verzameling documenten met een unieke id en de tekst die moet worden geanalyseerd.

Met de volgende Python-code worden bijvoorbeeld twee (korte) documenten geanalyseerd om de taal te detecteren waarin ze zijn geschreven.

# Assumes code to create TextAnalyticsClient is above...

# Example text to analyze
documents = ["Hello World!", "Bonjour le monde!"]

# Detect language
response = client.detect_language(documents=documents)
for doc in response:
    print(f"Document: {doc.id}")
    print(f"\tPrimary Language: {doc.primary_language.name}")
    print(f"\tISO6391 Name: {doc.primary_language.iso6391_name}")
    print(f"\tConfidence Score: {doc.primary_language.confidence_score}")

Het antwoord bevat een resultaat voor elk document in de aanvraag, inclusief de voorspelde taal en een waarde die het betrouwbaarheidsniveau van de voorspelling aangeeft. Het betrouwbaarheidsniveau is een waarde tussen 0 en 1 met waarden dichter bij 1 als een hoger betrouwbaarheidsniveau. Hier volgt een voorbeeld van een antwoord van de vorige code.

Document: 0
        Primary Language: English
        ISO6391 Name: en
        Confidence Score: 0.9
Document: 1
        Primary Language: French
        ISO6391 Name: fr
        Confidence Score: 0.98

In ons voorbeeld tonen beide talen een hoge betrouwbaarheidswaarde, voornamelijk omdat de tekst relatief eenvoudig en gemakkelijk te identificeren is voor de taal.

Als u de taal probeert te detecteren van een document met meertalige inhoud, kan het antwoord bijvoorbeeld I know a cool AI developer. He has a certain je ne sais quoi!enige dubbelzinnigheid weerspiegelen. Inhoud in gemengde taal binnen hetzelfde document retourneert de taal met de grootste weergave in de inhoud, maar met een lagere positieve waardering, die de marginale sterkte van die evaluatie weergeeft.

De laatste voorwaarde die u moet overwegen, is wanneer er dubbelzinnigheid is met betrekking tot de taalinhoud. Het scenario kan zich voordoen als u tekstuele inhoud verzendt die de analyse niet kan parseren, bijvoorbeeld vanwege tekencoderingsproblemen bij het converteren van de tekst naar een tekenreeksvariabele. Als gevolg hiervan wordt het antwoord voor de taalnaam en ISO-code geretourneerd als (unknown) en wordt de scorewaarde geretourneerd als 0.