Transparenzhinweis für benannte Entitätserkennung, einschließlich personenbezogener Informationen (PII)

Wichtig

Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.

Was ist eine Transparenznotiz?

Wichtig

In diesem Artikel wird davon ausgegangen, dass Sie mit Richtlinien und bewährten Methoden für Azure Sprache in Foundry Tools vertraut sind. Weitere Informationen finden Sie in der Transparenzhinweis für Sprache.

Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die es nutzen werden, die Menschen, die davon betroffen sind, und die Umgebung, in der sie bereitgestellt wird. Die Erstellung eines Systems, das für den vorgesehenen Zweck geeignet ist, erfordert ein Verständnis der Funktionsweise der Technologie, ihrer Fähigkeiten und Einschränkungen und derEn Erreichung der besten Leistung. Microsofts Transparenzhinweise sollen Ihnen helfen, zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Systembesitzer treffen können, die die Systemleistung und das Verhalten beeinflussen, und wie wichtig es ist, über das gesamte System nachzudenken, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die ihr System verwenden oder davon betroffen sind.

Microsoft Transparenzhinweise sind Teil eines umfassenderen Aufwands bei Microsoft, unsere KI-Prinzipien in die Praxis umzusetzen. Weitere Informationen finden Sie unter "Verantwortungsvolle KI-Prinzipien von Microsoft".

Einführung in benannte Entitätserkennung und personenbezogene Informationen (PII)

Die Sprache unterstützt die benannte Entitätserkennung , um Informationen in Ihrem Text zu identifizieren und zu kategorisieren. Dazu gehören allgemeine Entitäten wie Produkt-, Ereignis- und personenbezogene Informationen (PII). Eine Vielzahl von persönlichen Entitäten wie Namen, Organisationen, Adressen, Telefonnummern, Finanzkontonummern oder Codes und Landes- und Landes- oder regionsspezifische Identifikationsnummern können erkannt werden. Eine Teilmenge dieser persönlichen Entitäten ist geschützte Gesundheitsinformationen (PHI). Wenn Sie "domain=phi" in Ihrer Anforderung angeben, erhalten Sie nur die zurückgegebenen PHI-Entitäten. Die vollständige Liste der Kategorien für PII- und PHI-Entitäten finden Sie in der Tabelle hier. Darüber hinaus unterstützt die PII-Erkennung die Möglichkeit, spezifische Entitätskategorien anzugeben, die in der Antwort gewünscht werden, und PII-Entitäten in der Antwort zu schwärzen. Die PII-Entitäten werden durch Sternchen in der redactedText Eigenschaft der Antwort ersetzt.

Lesen Sie die Beispiel-NER-Anforderung und beispielantwort , um zu sehen, wie Text an den Dienst gesendet wird und was sie erwarten müssen.

Beispielanwendungsfälle

Kunden möchten möglicherweise verschiedene Kategorien benannter Entitäten aus zwei Hauptgründen erkennen:

  • Verbessern der Suchfunktionen – Kunden können Wissensdiagramme basierend auf Entitäten erstellen, die in Dokumenten erkannt wurden, um die Dokumentsuche zu verbessern.
  • Verbessern oder automatisieren Sie Geschäftsprozesse – Beispielsweise können bei der Überprüfung von Versicherungsansprüchen erkannte Entitäten wie Name und Standort hervorgehoben werden, um die Überprüfung zu erleichtern. Oder ein Supportticket könnte mit dem Namen und dem Unternehmen eines Kunden automatisch aus einer E-Mail generiert werden.

Kunden können verschiedene Kategorien von PII-Entitäten speziell aus mehreren Gründen erkennen:

  • Anwenden von Vertraulichkeitsbezeichnungen – beispielsweise basierend auf den Ergebnissen des PII-Diensts kann eine öffentliche Vertraulichkeitsbezeichnung auf Dokumente angewendet werden, bei denen keine PII-Entitäten erkannt werden. Bei Dokumenten, bei denen US-Adressen und Telefonnummern erkannt werden, kann eine vertrauliche Bezeichnung angewendet werden. Eine streng vertrauliche Bezeichnung kann für Dokumente verwendet werden, bei denen Bankweiterleitungsnummern erkannt werden.
  • Redact some categories of personal information from documents to protect privacy - Zum Beispiel, wenn Kundendaten für Mitarbeiter des Erstlinien-Supports zugänglich sind, könnte das Unternehmen unnötige persönliche Informationen von Kunden aus den Kundendaten entfernen, um die Privatsphäre der Kunden zu schützen.
  • Persönliche Informationen redigieren, um unbewussten Vorurteilen entgegenzuwirken - Zum Beispiel könnten sie während des Bewerbungsüberprüfungsprozesses eines Unternehmens den Namen, die Adresse und die Telefonnummer sperren, um unbewusste Geschlechts- oder andere Vorurteile zu reduzieren.
  • Ersetzen Sie personenbezogene Informationen in Quelldaten für maschinelles Lernen, um unlauteres Lernen zu reduzieren – wenn Sie beispielsweise Namen entfernen möchten, die beim Training eines Machine Learning-Modells Geschlecht offenlegen könnten, könnten Sie den Dienst verwenden, um sie zu identifizieren und sie durch generische Platzhalter für Modellschulungen zu ersetzen.

Überlegungen bei der Auswahl eines Anwendungsfalls

Nicht verwenden

  • Nur für PII – Nicht verwenden für Szenarien zur automatischen Redaktion oder Informationsklassifikation – Jedes Szenario, in dem Fehler bei der Redaktion von persönlichen Informationen Personen dem Risiko von Identitätsdiebstahl und physischen oder psychischen Schäden aussetzen können, sollte eine sorgfältige menschliche Aufsicht umfassen.
  • NER und PII - Verwenden Sie nicht für Szenarien, in denen personenbezogene Informationen für einen Zweck verwendet werden, für den die Zustimmung nicht erhalten wurde - beispielsweise hat ein Unternehmen lebensläufe aus früheren Stellenantragstellern. Die Antragsteller haben ihre Zustimmung nicht erteilt, für Werbeveranstaltungen kontaktiert zu werden, wenn sie ihre Lebensläufe eingereicht haben. Auf der Grundlage dieses Szenarios sollten sowohl NER- als auch PII-Dienste nicht verwendet werden, um Kontaktinformationen für den Zweck der Einladung der früheren Antragsteller zu einer Messe zu identifizieren.
  • NER und PII – Kunden dürfen diese Dienstleistung nicht nutzen, um persönliche Informationen aus öffentlich verfügbaren Inhalten ohne Zustimmung von Personen zu ernten, die Gegenstand der persönlichen Daten sind.
  • NER und PII – Verwenden Sie nicht für Szenarien, die persönliche Informationen in Text ersetzen, mit der Absicht, Personen zu irreführen.

Rechtliche und behördliche Überlegungen: Organisationen müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie Foundry Tools und Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind Foundry Tools oder Lösungen nicht für sie ausgelegt und dürfen nicht auf eine Weise verwendet werden, die in anwendbaren Nutzungsbedingungen und relevanten Verhaltensregeln verboten ist.

Merkmale und Einschränkungen

Je nach Szenario, Eingabedaten und den Entitäten, die Sie extrahieren möchten, können unterschiedliche Leistungsstufen auftreten. Die folgenden Abschnitte sollen Ihnen helfen, wichtige Konzepte zur Leistung zu verstehen, da sie für die Verwendung der Sprach-NER- und PII-Dienste gelten.

Verstehen und Messen der Leistung von NER

Da sowohl falsch positive als auch falsch negative Fehler auftreten können, ist es wichtig zu verstehen, wie sich beide Arten von Fehlern auf Ihr Gesamtsystem auswirken können. Bei named Entity Recognition (NER) tritt ein falsch positives Ergebnis auf, wenn eine Entität nicht im Text vorhanden ist, aber vom System erkannt und zurückgegeben wird. Ein falsch negatives Ergebnis liegt vor, wenn eine Entität im Text vorhanden ist, aber vom System nicht erkannt und ausgegeben wird.

Grundlegendes zur Leistung für PII

In Redaktionsszenarien könnten beispielsweise falsche Negative zur Preisgabe von persönlichen Informationen führen. Berücksichtigen Sie für Redaction-Szenarien einen Prozess für die menschliche Überprüfung, um diese Art von Fehler zu berücksichtigen. Bei Szenarien mit Vertraulichkeitsbezeichnungen können sowohl falsch positive als auch falsch negative Negative zu Fehlklassifizierungen von Dokumenten führen. Das Publikum kann für Dokumente, die als vertraulich gekennzeichnet sind, unnötig beschränkt werden, wenn ein falsch positives Ergebnis aufgetreten ist. PII könnte offengelegt werden, wenn ein falsch negatives Ergebnis aufgetreten ist und eine öffentliche Bezeichnung angewendet wurde.

Sie können den Schwellenwert für die Konfidenzbewertung anpassen, die Ihr System verwendet, um Ihr System zu optimieren. Wenn es wichtiger ist, alle potenziellen Instanzen von PII zu identifizieren, können Sie einen niedrigeren Schwellenwert verwenden. Dies bedeutet, dass Sie möglicherweise mehr falsch positive Ergebnisse erhalten (Nicht-PII-Daten, die als PII-Entitäten erkannt werden), aber weniger falsch negative Ergebnisse (PII-Entitäten, die nicht als PII erkannt werden). Wenn es für Ihr System wichtiger ist, nur echte PII-Daten zu erkennen, können Sie einen höheren Schwellenwert verwenden. Schwellenwerte weisen möglicherweise kein einheitliches Verhalten in einzelnen Kategorien von PII-Entitäten auf. Daher ist es wichtig, dass Sie Ihr System mit realen Daten testen, die es in der Produktion verarbeitet.

Systembeschränkungen und bewährte Methoden zur Leistungssteigerung

  • Stellen Sie sicher, dass Sie alle Entitätskategorien für NER und PII verstehen, die vom System erkannt werden können. Je nach Szenario können Ihre Daten andere Informationen enthalten, die als persönlich betrachtet werden könnten, aber nicht von den Kategorien abgedeckt werden, die der Dienst derzeit unterstützt.

  • Kontext ist wichtig, damit alle Entitätskategorien vom System richtig erkannt werden, so wie es oft für Menschen der Fall ist, wenn es darum geht, eine Entität zu erkennen. Beispielsweise ist ohne Kontext nur eine zehnstellige Zahl eine Zahl. Im gegebenen Kontext wie "Sie können mich bei meiner Bürotelefonnummer 2345678901 erreichen", kann sowohl das System als auch ein Mensch die zehnstellige Nummer als Telefonnummer erkennen. Geben Sie beim Senden von Text an das System immer Kontext an, um die bestmögliche Leistung zu erzielen.

  • Personennamen erfordern insbesondere sprachlichen Kontext. Senden Sie so viel Kontext wie möglich, um die Erkennung von Personennamen zu verbessern.

  • Bei Unterhaltungsdaten sollten Sie in Erwägung ziehen, mehr als eine einzelne Äußerung in der Unterhaltung zu senden, um eine höhere Wahrscheinlichkeit sicherzustellen, dass der erforderliche Kontext bei den tatsächlichen Entitäten eingeschlossen ist.
    Wenn Sie in der folgenden Unterhaltung jeweils eine einzelne Zeile senden, wird der Reisepassnummer kein Kontext zugeordnet, und die Kategorie "EU-Passnummer-PII" wird nicht erkannt.

    Hallo, wie kann ich Ihnen heute helfen?
    Ich möchte meinen Reisepass verlängern
    Sicher, was ist Ihre aktuelle Reisepassnummer?
    Sein 123456789, danke.

    Wenn Sie jedoch die gesamte Unterhaltung senden, wird sie erkannt, da der Kontext enthalten ist.

  • Manchmal können mehrere Entitätskategorien für dieselbe Entität erkannt werden. Wenn wir das vorherige Beispiel betrachten:

    Hallo, wie kann ich Ihnen heute helfen?
    Ich möchte meinen Reisepass verlängern
    Sicher, was ist Ihre aktuelle Reisepassnummer?
    Sein 123456789, danke.

    Mehrere verschiedene Länder weisen das gleiche Format für Reisepassnummern auf, sodass möglicherweise mehrere verschiedene bestimmte Entitätskategorien erkannt werden. In einigen Fällen reicht die Verwendung der höchsten Konfidenzbewertung möglicherweise nicht aus, um die richtige Entitätsklasse auszuwählen. Wenn Ihr Szenario von der erkannten spezifischen Entitätskategorie abhängt, müssen Sie möglicherweise das Ergebnis an anderer Stelle in Ihrem System entweder über eine menschliche Überprüfung oder einen zusätzlichen Überprüfungscode disambiguieren. Gründliche Tests mit realen Daten können Ihnen helfen, festzustellen, ob wahrscheinlich mehrere Entitätskategorien im Rahmen Ihres Szenarios erkannt werden.

  • Nicht alle Entitätskategorien werden in allen Sprachen für NER und PII unterstützt. Überprüfen Sie unbedingt den Entitätstypartikel für die Entitäten in der Sprache, die Sie ermitteln möchten.

  • Viele internationale PII-Entitäten werden unterstützt. Standardmäßig sind die zurückgegebenen Entitätskategorien diejenigen, die dem sprachcode entsprechen, der mit dem API-Aufruf gesendet wird. Wenn Sie erwarten, dass Entitäten aus anderen Lokalitäten als der angegebenen vorhanden sind, müssen Sie diese mit dem piiCategories Parameter angeben. Erfahren Sie mehr darüber, wie Sie angeben, was Ihre Antwort in die Azure AI Foundry REST-API-Referenz enthält. Erfahren Sie mehr über die Kategorien, die für jedes Gebietsschema in der Dokumentation zu benannten Entitätstypen unterstützt werden.

  • Wenn Sie in PII-Redaction-Szenarien die Version der API verwenden, die den optionalen Parameter piiCategoriesenthält, ist es wichtig, dass Sie alle PII-Kategorien berücksichtigen, die in Ihrem Text vorhanden sein könnten. Wenn Sie nur bestimmte Entitätskategorien oder die Standardentitätskategorien für ein bestimmtes Gebietsschema redigieren, werden andere PII-Entitätskategorien, die unerwartet in Ihrem Text angezeigt werden, offengelegt. Wenn Sie z. B. das Gebietsschema EN-US gesendet und keine optionalen PII-Kategorien angegeben haben und eine deutsche Führerscheinnummer in Ihrem Text vorhanden ist, wird sie weitergegeben. Um dies zu verhindern, müssen Sie die Kategorie "Deutsche Führerscheinnummer" im piiCategories Parameter angeben. Wenn Sie außerdem eine oder mehrere Kategorien mit dem piiCategories Parameter für das angegebene Gebietsschema angegeben haben, beachten Sie, dass dies die einzigen Kategorien sind, die redigiert werden würden. Wenn Sie z. B. das gebietsschema EN-US gesendet und U.S. Sozialversicherungsnummer (SSN) als PII-Kategorie angegeben haben, werden alle anderen EN-US Kategorien wie U.S. Driver's License Number oder U.S. Passport Number durchleckt, wenn sie im Eingabetext angezeigt werden.

  • Da der PII-Dienst PII-Kategorien zurückgibt, die mit dem Sprachcode im Aufruf übereinstimmen, sollten Sie überprüfen, in welcher Sprache der Eingabetext enthalten ist, wenn Sie nicht sicher sind, welche Sprache oder welches Gebietsschema sie sein wird. Dazu können Sie die Spracherkennungsfunktion verwenden.

  • Der PII-Dienst akzeptiert nur Text als Eingabe. Wenn Sie Informationen aus Dokumenten in anderen Formaten redigieren, sollten Sie den Redaction-Code sorgfältig testen, um sicherzustellen, dass identifizierte Entitäten nicht versehentlich verloren gehen.

Siehe auch