Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Erfahren Sie, wie Sie mit Pandas UDF, PyTorch und TensorFlow in einer gemeinsamen Konfiguration, die von vielen realen Bildanwendungen genutzt wird, verteilte Bildmodellrückschlüsse aus Referenzlösungs-Notebooks durchführen. Bei dieser Konfiguration wird davon ausgegangen, dass Sie viele Bilder in einem Objektspeicher speichern und optional ständig neue Bilder eintreffen.
Workflow für Bildmodellrückschlüsse
Angenommen, Sie verfügen über mehrere trainierte Deep Learning-Modelle (DL-Modelle) für die Bildklassifizierung und Objekterkennung, z. B. MobileNetV2 zum Erkennen menschlicher Objekte in von Benutzern hochgeladenen Fotos zu Datenschutzzwecken, und möchten diese DL-Modelle auf die gespeicherten Bilder anwenden.
Sie können die Modelle erneut trainieren und zuvor berechnete Vorhersagen aktualisieren. Das Laden vieler Bilder und die Anwendung von Deep-Learning-Modellen sind sowohl I/O-intensiv als auch rechenintensiv. Glücklicherweise sind Rückschlussworkloads hochgradig parallel und können theoretisch einfach verteilt werden. Dieser Leitfaden führt Sie durch eine praktische Lösung mit zwei Hauptphasen:
- Extrahieren, Transformieren und Laden von Bildern in eine Delta-Tabelle mithilfe des Autoloaders
- Ausführen von verteilten Rückschlüssen mithilfe von pandas UDF
ETL von Bildern in eine Delta-Tabelle mithilfe von Auto Loader
Für Bildanwendungen, einschließlich Trainings- und Inferenzaufgaben, empfiehlt Databricks, dass Sie Bilder mit dem Auto Loader extrahieren, transformieren und in eine Delta-Tabelle laden. Der Autoloader unterstützt die Datenverwaltung und verarbeitet automatisch kontinuierlich eingehende neue Bilder.
ETL-Bild-Datensatz in ein Delta-Tabellentagebuch übertragen
Ausführen von verteilten Rückschlüssen mithilfe von pandas UDF
Die folgenden Notebooks verwenden PyTorch und TensorFlow tf.Keras, um die Referenzlösung zu veranschaulichen.
Verteilter Rückschluss mittels Pytorch und pandas UDF Notebook
Verteilte Inferenzen via Keras und pandas UDF im Notebook
Einschränkungen: Bilddateigrößen
Für große Bilddateien (durchschnittliche Bildgröße größer als 100 MB) empfiehlt Databricks, die Delta-Tabelle nur bei Bedarf zum Verwalten der Metadaten (Liste der Dateinamen) und zum Laden der Bilder aus dem Objektspeicher mit ihren Pfaden zu verwenden.