Azure AI Language の個人情報検出(PII)機能においてプレビューとしての "ドキュメントに基づくPII" です。 独自のテキスト抽出と再構築パイプラインを構築することなく、Microsoft Wordや PDF ファイルを含むネイティブ ドキュメント ファイル内の機密データを直接検出して編集するのに役立ちます。
この機能は、非同期 API ワークフローを使用し、ドキュメントの構造と書式設定を保持する編集済み出力を返します。 ドキュメントの忠実性がコンプライアンス レビュー、共有、分析、ダウンストリーム AI ワークフローで重要な場合に使用できます。
重要
ドキュメント ベースの PII は現在プレビュー段階であり、一般公開 (GA) の前に変更される可能性があります。
概要
ドキュメント ベースの PII には、次の機能があります。
-
.pdf、.docx、.txtファイルのネイティブ ドキュメントの編集。 - フォント、間隔、色など、出力ドキュメントのレイアウトが保持されます。
- 抽出、検出、および編集のための 1 つの非同期 API ワークフロー。
- エンタープライズ対応の出力: 編集されたドキュメントと構造化された JSON 結果。
ビデオデモ
このビデオでは、PII 検出サービスを紹介し、ファイル構造と書式設定を維持しながら、ネイティブ ドキュメントから機密データを直接検出して編集する方法について説明します。 また、一般的なユース ケース、サポートされている形式、ドキュメント ベースの PII をAzure AI Languageで開始する方法についても説明します。
このビデオでは、クローズド キャプションを利用できます。
ドキュメント ベースの PII を使用する理由
多くのカスタム パイプラインでは、テキストの抽出、検出の実行、ドキュメント出力の再構築に複数の手順が必要です。 ドキュメント ベースの PII は、ドキュメント処理システム用に設計された単一の非同期 API パターンと出力成果物を使用して、このフローを簡略化します。
ドキュメント ベースの PII は、次の必要がある場合に特に便利です。
-
.pdf、.docx、および.txtファイルの PII を編集します。 - ダウンストリーム ビジネス プロセスのドキュメント レイアウトを保持します。
- 監査と統合のために構造化された JSON 出力を生成します。
ドキュメント ベースの PII では、住所、電話番号、クレジット カード番号などのエンティティを含む、テキスト PII と同じ定義済み PII カテゴリが使用されます。
返される内容
ジョブが成功すると、次の情報を受け取ります。
- ターゲット ストレージ コンテナー内の編集済みドキュメント。
- 検出されたエンティティ、カテゴリ、信頼度スコア、および処理メタデータを含む JSON 結果ファイル。
しくみ
ドキュメント ベースの PII では、非同期ワークフローが使用されます。
- ソースストレージとターゲットストレージの場所を指定してジョブを送信します。
- 操作の場所を使用して、ジョブの状態をポーリングします。
- ターゲット ストレージの場所から出力成果物を取得します。
実装の詳細と要求のサンプルについては、「 ネイティブ ドキュメントで個人を特定できる情報を検出して編集する」を参照してください。
他の PII 機能の種類と異なる方法
すべての PII 機能の種類では、定義済みのエンティティ カテゴリが使用されますが、さまざまな入力の種類に合わせて最適化されます。
- ドキュメント ベースの PII は、ネイティブ ファイルの編集ワークフローとファイル出力の忠実性のために最適化されています。
- テキスト PII は、直接の文字列ベースの入力とアプリの統合用に最適化されています。
- Conversation PII は、ターンベースおよびトランスクリプト指向の会話入力用に最適化されています。
一般的なユース ケース
ドキュメント ベースの PII は、ストレージ、分析、外部共有、またはダウンストリーム AI 処理の前に、チームがファイルを匿名化する必要がある、エンタープライズおよび規制業界のワークフロー向けに設計されています。
一般的な例を次に示します。
- 裁判所の記録と法的書類。
- 政府機関のフォームと内部レコード。
- 財務ドキュメント。
- 社内のエンタープライズ ドキュメント ワークフロー。
サポートされている形式と制限
ドキュメント ベースの PII は、テキストの前処理を必要とせずに、ネイティブ ファイル形式を直接受け入れます。 次の表に、サポートされている形式を示します。
| ファイルの種類 | ファイル拡張子 | 説明 |
|---|---|---|
| テキスト | .txt |
書式設定されていないテキスト ドキュメント。 |
| Adobe PDF | .pdf |
移植可能なドキュメント ファイル形式のドキュメント。 |
| マイクロソフトワード | .docx |
Microsoft Wordドキュメント ファイル。 |
次の入力制約が適用されます。
| 属性 | 制限 |
|---|---|
| 要求あたりのドキュメントの合計数 | <= 20 |
| 要求あたりの合計コンテンツ サイズ | <= 10 MB |
次のコンテンツ タイプはサポートされていません。
| タイプ | 制限 |
|---|---|
| 完全にスキャンされた PDF | サポートされていません。 |
| 埋め込みテキストを含む画像 | テキストが埋め込まれたデジタル 画像はサポートされていません。 |
| スキャンされたドキュメント内のテーブル | サポートされていません。 |
言語サポートとクォータおよび制限について現在の言語対応範囲とサービス制限の詳細を参照してください。
価格
ドキュメント ベースの PII の墨消しには、Azure AI Language の料金が適用されます。 現在の価格の詳細については、Azure AI Language価格を参照してください。
次の手順
実装を続行するには、次の参照を使用します。