Sommaire
Les récentes percées en vision par ordinateur ont grandement amélioré la performance des localisateurs d’objets assistés par l’apprentissage profond. Cependant, ces localisateurs dépendent de grands ensembles de données annotées, limitant ainsi leur utilisation dans de nombreuses applications industrielles en raison du coût élevé de l’annotation. Pour y remédier, des chercheurs de l’ÉTS ont mis au point l’échantillonnage discriminant de pseudo-étiquettes (Discriminative Pseudo-Label Sampling, DiPS). Cette approche innovante tire profit des transformeurs de vision auto-supervisés pour améliorer la localisation d’objets tout en éliminant l’annotation intense nécessaire aux données d’entraînement.
Coûts élevés de l’annotation
Les modèles d’apprentissage profond sont courants dans la localisation d’objets. Cependant, ils nécessitent une supervision intense, chaque objet d’une image devant être soigneusement étiqueté par un être humain afin d’être classé dans la catégorie appropriée. Ce processus est non seulement long, mais aussi coûteux, ce qui limite l’évolutivité de ces méthodes. La localisation d’objets faiblement supervisée vise à réduire les coûts en utilisant uniquement les étiquettes de classe d’image qui représentent l’objet dominant dans l’image. Cependant, ces approches peinent souvent à identifier les objets avec précision, car elles n’ont pas accès aux annotations précises.
DiPS : Une nouvelle approche
DiPS offre un nouveau cadre d’apprentissage profond pour entraîner des localisateurs d’objets à l’aide de pseudo-annotations provenant de transformeurs auto-supervisés. Cette approche élimine la nécessité des annotations manuelles. Les pseudo-annotations et les étiquettes de classe servent à entraîner le modèle. Le modèle est constitué d’une épine dorsale de transformeur avec deux têtes : l’une pour générer des cartes de localisation et l’autre pour produire des scores de classification.
La fonction de DiPS est la génération de pseudo-annotations. Pour générer des pseudo-annotations de terrain, nous avons d’abord extrait l’attention du transformeur auto-supervisé. Les cartes d’attention peuvent contenir différents objets. Pour filtrer les régions d’objets pertinents, nous avons donc utilisé ces cartes pour perturber les images en cachant les objets non pertinents. Ensuite, nous avons entré les images dans un classificateur pré-entraîné et sélectionné les cartes les plus performantes, aux scores de classification les plus élevés, comme pseudo-étiquettes. Parmi ces cartes N, une carte représentative a été choisie pour échantillonner les pixels d’avant- et d’arrière-plan, sur la base des valeurs d’activation. Ces pseudo-pixels ont servi à entraîner un réseau de localisation, ce qui a permis d’identifier des objets. Grâce à notre approche, le réseau peut apprendre à partir d’annotations limitées de pseudo-pixels, afin d’explorer différentes parties de l’objet. La nécessité d’une annotation manuelle par des experts humains est éliminée, facilitant ainsi l’entraînement faiblement supervisé.
Résultats
DiPS a été testé sur plusieurs ensembles de données complexes, notamment ILSVRC, OpenImages et CUB-200-2011, et affichait des performances de localisation supérieures à celles des méthodes existantes. En outre, le modèle proposé a démontré sa capacité à couvrir toutes les parties de l’objet, contrairement à d’autres méthodes. Par exemple, DiPS a surpassé les modèles de pointe dans l’ensemble de données CUB, comme le montre l’image ci-dessous. Pour une analyse détaillée, veuillez consulter l’article publié.
Complément d’information
Pour plus d’informations sur cette recherche, veuillez lire l’article suivant : Murtaza, Shakeeb, et al. "DiPS: Discriminative pseudo-label sampling with self-supervised transformers for weakly supervised object localization." Image and Vision Computing 140 (2023): 104838.