個人を特定できる情報の抽出 (PII)
Tip
詳細については、「 テキストと画像 」タブを参照してください。
多くのシナリオでは、ドキュメント内の機密情報を特定して保護する必要があります。 たとえば、お客様からのフィードバック、医療記録、または法的書類から個人を特定できる情報 (PII) を共有する前に削除する必要がある場合があります。
Azure Language には、名前、住所、電話番号、電子メール アドレス、社会保障番号、クレジット カード番号などの機密情報を識別するための PII 検出と編集機能が用意されています。 PII エンティティを抽出して分析し、それらを編集 (マスク) してプライバシーを保護することができます。
すべての Azure 言語関数と同様に、分析のために 1 つ以上のドキュメントを送信できます。
# Example text to analyze
documents = ["John Smith works at Contoso Ltd. His email is john.smith@contoso.com and his phone number is 555-012-456.",
"Patient Sarah Johnson, SSN 123-45-6789, was admitted on 03/15/2024."]
# Extract PII entities
response = client.recognize_pii_entities(documents=documents, language="en")
for doc in response:
print(f"\nPII entities in document {doc.id}:")
for entity in doc.entities:
print(f" - {entity.text}: {entity.category} (confidence: {entity.confidence_score:.2f})")
応答には、テキストで識別される PII エンティティとそのカテゴリと信頼度スコアが含まれます。
PII entities in document 0:
- John Smith: Person (confidence: 0.99)
- Contoso Ltd: Organization (confidence: 0.85)
- john.smith@contoso.com: Email (confidence: 1.00)
- 555-012-456: PhoneNumber (confidence: 0.80)
PII entities in document 1:
- Sarah Johnson: Person (confidence: 0.99)
- 123-45-6789: USSocialSecurityNumber (confidence: 0.99)
- 03/15/2024: DateTime (confidence: 0.80)
PII エンティティを編集して機密情報を保護することもできます。 サービスは、PII がアスタリスクまたは指定された文字に置き換えられた編集済みバージョンのテキストを返します。
# Redact PII entities
response = client.recognize_pii_entities(documents=documents, language="en")
for doc in response:
print(f"\nDocument {doc.id} (redacted):")
print(f" {doc.redacted_text}")
これにより、機密情報がマスクされた出力が生成されます。
Document 0 (redacted):
********** works at ************. His email is ************************ and his phone number is ********.
Document 1 (redacted):
Patient *************, SSN ***********, was admitted on **********.