Referenzlösung für Bildanwendungen

Erfahren Sie, wie Sie mit Pandas UDF, PyTorch und TensorFlow in einer gemeinsamen Konfiguration, die von vielen realen Bildanwendungen genutzt wird, verteilte Bildmodellrückschlüsse aus Referenzlösungs-Notebooks durchführen. Bei dieser Konfiguration wird davon ausgegangen, dass Sie viele Bilder in einem Objektspeicher speichern und optional ständig neue Bilder eintreffen.

Workflow für Bildmodellrückschlüsse

Angenommen, Sie verfügen über mehrere trainierte Deep Learning-Modelle (DL-Modelle) für die Bildklassifizierung und Objekterkennung, z. B. MobileNetV2 zum Erkennen menschlicher Objekte in von Benutzern hochgeladenen Fotos zu Datenschutzzwecken, und möchten diese DL-Modelle auf die gespeicherten Bilder anwenden.

Sie können die Modelle erneut trainieren und zuvor berechnete Vorhersagen aktualisieren. Das Laden vieler Bilder und die Anwendung von Deep-Learning-Modellen sind sowohl I/O-intensiv als auch rechenintensiv. Glücklicherweise sind Rückschlussworkloads hochgradig parallel und können theoretisch einfach verteilt werden. Dieser Leitfaden führt Sie durch eine praktische Lösung mit zwei Hauptphasen:

  1. Extrahieren, Transformieren und Laden von Bildern in eine Delta-Tabelle mithilfe des Autoloaders
  2. Ausführen von verteilten Rückschlüssen mithilfe von pandas UDF

ETL von Bildern in eine Delta-Tabelle mithilfe von Auto Loader

Für Bildanwendungen, einschließlich Trainings- und Inferenzaufgaben, empfiehlt Databricks, dass Sie Bilder mit dem Auto Loader extrahieren, transformieren und in eine Delta-Tabelle laden. Der Autoloader unterstützt die Datenverwaltung und verarbeitet automatisch kontinuierlich eingehende neue Bilder.

ETL-Bild-Datensatz in ein Delta-Tabellentagebuch übertragen

Notebook abrufen

Ausführen von verteilten Rückschlüssen mithilfe von pandas UDF

Die folgenden Notebooks verwenden PyTorch und TensorFlow tf.Keras, um die Referenzlösung zu veranschaulichen.

Verteilter Rückschluss mittels Pytorch und pandas UDF Notebook

Notebook abrufen

Verteilte Inferenzen via Keras und pandas UDF im Notebook

Notebook abrufen

Einschränkungen: Bilddateigrößen

Für große Bilddateien (durchschnittliche Bildgröße größer als 100 MB) empfiehlt Databricks, die Delta-Tabelle nur bei Bedarf zum Verwalten der Metadaten (Liste der Dateinamen) und zum Laden der Bilder aus dem Objektspeicher mit ihren Pfaden zu verwenden.