Solution de référence pour les applications d’images

Découvrez comment effectuer une inférence de modèle d’image distribuée à partir de notebooks de solution de référence à l’aide de pandas UDF, PyTorch et TensorFlow dans une configuration commune partagée par de nombreuses applications d’images réelles. Cette configuration suppose que vous stockez de nombreuses images dans un magasin d’objets et que vous avez éventuellement des nouvelles images en continu.

Flux de travail pour l’inférence de modèle d’image

Supposons que vous disposiez de plusieurs modèles d'apprentissage profond (DL) formés pour la classification d'images et la détection d'objets - par exemple, MobileNetV2 pour la détection d'objets humains dans les photos téléchargées par les utilisateurs afin de protéger la vie privée - et que vous souhaitiez appliquer ces modèles DL aux images stockées.

Vous pouvez reformer les modèles et mettre à jour les prédictions précédemment calculées. Toutefois, il s'agit à la fois d'un processus gourmand en entrée/sortie et en calcul pour charger de nombreuses images et appliquer des modèles d’apprentissage profond. Heureusement, la charge de travail d’inférence est massivement parallèle et, en théorie, elle peut être distribuée facilement. Ce guide vous guide tout au long d’une solution pratique qui contient deux étapes majeures :

  1. Images ETL dans une table Delta à l’aide du chargeur automatique
  2. Effectuer une inférence distribuée à l'aide de pandas UDF

Images ETL dans une table Delta à l’aide du chargeur automatique

Pour les applications d’images, y compris les tâches d’apprentissage et d’inférence, Databricks recommande de réaliser l’ETL des images dans une table Delta avec l’Auto Loader. Le chargeur automatique permet la gestion des données et gère automatiquement les nouvelles images en continu.

Traitement ETL d'un jeu de données d'images dans un notebook de table Delta

Obtenir un ordinateur portable

Effectuer une inférence distribuée à l'aide de pandas UDF

Les blocs-notes suivants utilisent PyTorch et TensorFlow tf. Keras pour illustrer la solution de référence.

Inférence distribuée par le biais du bloc-notes UDF Pytorch et pandas

Obtenir un ordinateur portable

Inférence distribuée via le cahier Keras et pandas UDF

Obtenir un ordinateur portable

Limitations : taille des fichiers image

Pour les fichiers image volumineux (taille d’image moyenne supérieure à 100 Mo), Databricks recommande l’utilisation de la table Delta uniquement pour gérer les métadonnées (liste de noms de fichiers) et le chargement des images à partir du magasin d’objets à l’aide de leurs chemins d’accès si nécessaire.