Informationen zur optischen Zeichenerkennung in Microsoft Purview

Mithilfe der optischen Zeichenerkennung (OCR) kann Microsoft Purview Bilder auf vertrauliche Informationen überprüfen. DIE OCR-Überprüfung ist ein optionales Feature, das Sie auf Mandantenebene aktivieren müssen. Nachdem Sie sie aktiviert haben, wählen Sie die Speicherorte aus, an denen Sie Bilder überprüfen möchten. Sie können Bilder auf Exchange-, SharePoint-, OneDrive-, Teams-, Windows- und macOS-Geräten scannen. Wenn Sie die OCR-Einstellungen konfigurieren, wendet Microsoft Purview Ihre vorhandenen Richtlinien zur Verhinderung von Datenverlust (Data Loss Prevention, DLP), Datensatzverwaltung und Insider-Risikomanagement (IRM) auf Bilder und textbasierte Inhalte an. Wenn Sie beispielsweise den Inhalt der DLP-Bedingung konfigurieren, der vertrauliche Informationen enthält und einen Datenklassifizierer wie den Vertraulichen Kreditkartendatentyp (Credit Card Sensitive Information Type, SIT) einschließen, sucht Microsoft Purview an allen ausgewählten Speicherorten nach Guthaben Karte Zahlen in Text und Bildern.

Der Ablauf auf einen Blick

Phase Anforderungen
Erstellen Sie bei Bedarf Azure Abonnement. Wenn Ihr organization noch nicht über ein Azure Abonnement mit nutzungsbasierter Bezahlung für Ihren Mandanten verfügt, muss Ihr globaler Administrator zunächst ein Azure-Konto erstellen.
Schätzen Ihrer OCR-Scangebühren Verwenden Sie die OCR-Kostenschätzung , um die erwarteten Gebühren für Ihre spezifischen Anwendungsfälle zu schätzen.
Richten Sie die nutzungsbasierte Abrechnung ein, um OCR zu aktivieren. Ihr globaler oder SharePoint-Administrator muss die Anweisungen unter Einrichten Microsoft Syntex Abrechnung in Azure befolgen, um ein Abonnement für OCR hinzuzufügen.
Konfigurieren von OCR-Scaneinstellungen Der Complianceadministrator für Ihre organization konfiguriert die OCR-Einstellungen für Ihren Mandanten.

Voraussetzungen

Um die OCR-Überprüfung verwenden zu können, muss der globale Administrator Ihres organization überprüfen, ob ein Azure Abonnement mit nutzungsbasierter Bezahlung vorhanden ist. Andernfalls muss das Abonnement entsprechend den Anweisungen unter Erstellen Ihrer ersten Azure-Abonnements eingerichtet werden.

Konfigurieren der Abrechnung

Wenn Sie OCR aktivieren, können alle Typen vertraulicher Informationen und trainierbaren Klassifizierer Zeichen erkennen, die sich in Bildern befinden.

Da es sich um ein optionales Feature handelt, muss Ihr globaler Administrator die abrechnungsbasierte Bezahlung einrichten, um OCR zu aktivieren. Informationen zum Hinzufügen eines Abonnements für OCR finden Sie in den Anweisungen unter Einrichten Microsoft Syntex Abrechnung in Azure.

Hinweis

Nachdem Sie Abrechnungsinformationen in Microsoft Syntex eingegeben haben, kann Ihr Complianceadministrator OCR in Microsoft Purview ohne zusätzliche Setup- oder Lizenzierungsanforderungen konfigurieren.

Preisinformationen zur nutzungsbasierten Bezahlung für OCR finden Sie auf der Seite Einrichten Microsoft Syntex Abrechnung auf Azure.

Schätzen Ihrer OCR-Scangebühren

Jedes gescannte Bild zählt als eine Transaktion. Diese Preise bedeuten, dass eigenständige Bilder (JPEG, JPG, PNG, BMP oder TIFF) jeweils als einzelne Transaktion gezählt werden. Dies bedeutet auch, dass jede Seite in einer PDF-Datei separat abgerechnet wird. Wenn eine PDF-Datei beispielsweise 10 Seiten enthält, zählt eine OCR-Überprüfung der PDF-Datei als 10 separate Scans. Informationen zur Verwendung der OCR-Kostenschätzung finden Sie unter Schätzen Ihrer OCR-Kosten.

Hinweis

Um Ihre OCR-Kosten zu senken, verwendet der Dienst die folgenden Zwischenspeicherungsmechanismen: Kleine Bilder, z. B. Logos und Signaturen, die per E-Mail über Microsoft Exchange gesendet werden, werden nur einmal pro eindeutigem Bild für alle Benutzer des Mandanten für ein verschobenes Zeitfenster von fünf Tagen in Rechnung gestellt. Für Endpunkt wird der Cache 30 Tage lang verwaltet. Die Zwischenspeicherung erfolgt lokal für jedes Endpunktgerät, und es werden nur Klassifizierer gespeichert, die für das Image und den Imagehash identifiziert werden. Kundendaten werden nicht gespeichert. Es gibt keinen Zwischenspeicherungsmechanismus für eigenständige Bilder in SharePoint und OneDrive. In eingebetteten Dateitypen werden Bilder jedoch nicht erneut gescannt, wenn nur Text aktualisiert wird.

Der Dienst überprüft mehrere Parameter, einschließlich Imagestream-Hash und Bildgröße, um zu ermitteln, ob er den Cache verwenden kann. Wenn ein Parameter nicht übereinstimmt, erkennt der Dienst das Image erneut.

Darüber hinaus können Sie jedes gescannte Bild ohne zusätzliche Kosten in einer beliebigen Anzahl von Richtlinien für die Verhinderung von Datenverlust, Insider-Risikomanagement, automatische Bezeichnung und Datensatzverwaltung verwenden.

Wichtig

Informationen zu den Adobe-Anforderungen für die Verwendung von Microsoft Purview Data Loss Prevention (DLP)-Features mit PDF-Dateien finden Sie in diesem Artikel von Adobe: Microsoft Purview Information Protection Support in Acrobat.

Konfigurieren Ihrer OCR-Einstellungen

Führen Sie die folgenden Schritte aus, um die OCR-Überprüfung für Ihren Mandanten zu konfigurieren:

  1. Melden Sie sich beim Microsoft Purview-Portal an.
  2. Wählen Sie Einstellungen aus.
  3. Wählen Sie Optische Zeichenerkennung (OCR) aus, um Ihre OCR-Konfigurationseinstellungen einzugeben.
  4. Wählen Sie die Speicherorte aus, an denen Sie Bilder überprüfen möchten.
  5. Wählen Sie die Gruppen aus, die von OCR-Überprüfungen eingeschlossen oder ausgeschlossen werden sollen.
  6. Wählen Sie Fertig aus.

Eine vollständige Liste der Orte, an denen OCR Bilder überprüft, und die Lösungen, die auf die Ergebnisse reagieren, finden Sie unter Unterstützte Standorte und Lösungen.

Berechtigungen

Zum Erstellen und Bereitstellen von Richtlinien muss Ihr Konto Mitglied einer der folgenden Rollengruppen sein:

  • Compliance-Administrator
  • Compliancedatenadministrator
  • Globaler Administrator
  • Informationsschutz
  • Information Protection-Administrator

Hinweis

Im Allgemeinen werden OCR-Einstellungen etwa eine Stunde nach dem Aktivieren wirksam.

Hinweis

Informationen zur OCR-Funktionalität in Microsoft Purview Communication Compliance finden Sie unter Erstellen und Verwalten von Kommunikationscompliancerichtlinien.

Unterstützte Standorte und Lösungen

Standort Unterstützte Lösungen
Exchange Verhinderung von Datenverlust

Informationsschutz: Richtlinien für automatische Bezeichnungen

Datensatzverwaltung: Richtlinien für automatisch angewendete Aufbewahrungsbezeichnungen1
SharePoint-Websites Verhinderung von Datenverlust

Insider-Risikomanagement2

Datensatzverwaltung: Richtlinien für automatisch angewendete Aufbewahrungsbezeichnungen1
OneDrive-Konten Verhinderung von Datenverlust

Datensatzverwaltung: Richtlinien für automatisch angewendete Aufbewahrungsbezeichnungen1
Teams-Chat- und Teams-Kanalnachrichten Verhinderung von Datenverlust

Insider-Risikomanagement2
Geräte Verhinderung von Datenverlust

Insider-Risikomanagement2

1 Unterstützt Schlüsselwörter und Typen vertraulicher Informationen.
2 Berücksichtigt vertrauliche Informationstypen und trainierbare Klassifizierer, die in Bildern für die Risikobewertung vorhanden sind.

Unterstützte Dateitypen

Diese Funktion unterstützt das Scannen von Bildern in den folgenden Dateitypen mit den angegebenen Anforderungen:

Speicherorte Unterstützte Dateitypen
Exchange JPEG, JPG, PNG, BMP, TIFF und PDFs (gescannt). Eingebettete Bilder in DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z und Hybrid-PDFs (mit durchsuchbarem Text und Bildern) mit einem Grenzwert von 20 eingebetteten Bildern, die pro Datei gescannt werden.
SharePoint und OneDrive BMP, PNG, JPEG, JPG, JFIF, ARW, CR2, CRW, ERF, GIF, MEF, MRW, NEF, NRW, ORF, PEF, RAW, RW2, RW1, SR2, TIF, TIFF, HEIC, HEIF, ARI, BAY, CAP, CR3, DCS, DCR, DRF, EIP, FFF, IIQ, K25, KDC, MOS, PTX, PXN, RAF, RWL, SRF, SRW, X3F, DNG, PDFs (gescannt und hybrid mit durchsuchbarem Text und Bildern) Eingebettete Bilder in DOCX, PPTX, XLSX
Teams-, Windows- und macOS-Endpunkt JPEG, JPG, PNG, BMP, TIFF und PDF (nur Bild)

Bildanforderungen

Anforderung Grenze
Dateigröße (Exchange, Teams) Max. 20 MB
Dateigröße (SharePoint-, OneDrive-, Windows- und macOS-Endpunkte) Max. 50 MB
Bildauflösung Mindestens 50 × 50 px, maximal 16.000 × 16.000 px

Wichtig

  • Nur Bilder, die nach der Aktivierung von OCR hochgeladen wurden, werden gescannt.
  • OCR extrahiert nur die ersten 2 Millionen Zeichen des Texts.
  • Standardmäßig unterliegen eingehende E-Mails (E-Mails von Benutzern außerhalb des organization), interne E-Mails (innerhalb der Benutzer des organization freigegebene E-Mails) und ausgehende E-Mails (E-Mails, die an Benutzer außerhalb des organization gesendet werden) der OCR-Überprüfung. Um eingehende E-Mails von der OCR-Überprüfung auszuschließen, ändern Sie die OCR-Einstellungen vom Standardbereich Alle Absendergruppen in die Spezifischen Absendergruppen , und geben Sie die internen Gruppen an, die VON OCR überprüft werden sollen. Um OCR-Überprüfungen nur auf E-Mails zu beschränken, die nur außerhalb des organization gesendet werden, wählen Sie die Option unter Erweiterte Einstellung (nur Exchange) aus. Nachdem Sie dieses Kontrollkästchen aktiviert haben, werden weder eingehende E-Mails noch interne Kommunikationen ocReded. Informationen zum Ändern der Konfigurationen finden Sie unter Konfigurieren Ihrer OCR-Einstellungen.
  • Richtlinientipps zur Verhinderung von Datenverlust werden für Bilder in Exchange nicht unterstützt.
  • Wenn Sie einen Pfad in den Endpunkteinstellungen zur Verhinderung von Datenverlust ausschließen, überprüft OCR keine Bilder in diesen Ordnern.
  • Wenn OCR für Windows- und macOS-Geräte aktiviert ist, senden die Geräte Nachrichten zur Überprüfung an die Cloud. Das Standardbandbreitenlimit beträgt 1.024 MB daten pro Gerät und Tag. OCR beendet das Scannen von Bildern, sobald dieses tagesaktuelle Limit erreicht ist. Wenn Sie mit dem Scannen von Bildern fortfahren möchten, können Sie die Bandbreitengrenze erhöhen.
  • Stellen Sie für Endpunktgerät sicher, dass netzwerkeinstellungen die OCR nicht behindern und ein Wildcard vorhanden sein sollte, der blob.core.windows.net Endpunkte zulässt.
  • Für Exchange unterstützt das Feature eingebettete Bilder in DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z und Hybrid-PDFs (mit durchsuchbarem Text und Bildern) mit einem Grenzwert von 20 eingebetteten Bildern, die pro Datei gescannt werden.

Unterstützte Sprachen

OCR-Überprüfung unterstützt mehr als 150 Sprachen.

Zusammenfassung

Siehe auch