13 novembre 2024

Génie de la production automatisée Recherche et innovation Les systèmes intelligents et autonomes Chaires, laboratoires, instituts et centres de recherche LIVIA – Laboratoire d’imagerie, de vision et d’intelligence artificielle

Modèle d’apprentissage profond pour la localisation d’objets

Visuel coloré d'un chat et d'un chien avec des cadres étiquetés.

Sommaire

Les récentes percées en vision par ordinateur ont grandement amélioré la performance des localisateurs d’objets assistés par l’apprentissage profond. Cependant, ces localisateurs dépendent de grands ensembles de données annotées, limitant ainsi leur utilisation dans de nombreuses applications industrielles en raison du coût élevé de l’annotation. Pour y remédier, des chercheurs de l’ÉTS ont mis au point l’échantillonnage discriminant de pseudo-étiquettes (Discriminative Pseudo-Label Sampling, DiPS). Cette approche innovante tire profit des transformeurs de vision auto-supervisés pour améliorer la localisation d’objets tout en éliminant l’annotation intense nécessaire aux données d’entraînement.

Coûts élevés de l’annotation

Les modèles d’apprentissage profond sont courants dans la localisation d’objets. Cependant, ils nécessitent une supervision intense, chaque objet d’une image devant être soigneusement étiqueté par un être humain afin d’être classé dans la catégorie appropriée. Ce processus est non seulement long, mais aussi coûteux, ce qui limite l’évolutivité de ces méthodes. La localisation d’objets faiblement supervisée vise à réduire les coûts en utilisant uniquement les étiquettes de classe d’image qui représentent l’objet dominant dans l’image. Cependant, ces approches peinent souvent à identifier les objets avec précision, car elles n’ont pas accès aux annotations précises.

DiPS : Une nouvelle approche

DiPS offre un nouveau cadre d’apprentissage profond pour entraîner des localisateurs d’objets à l’aide de pseudo-annotations provenant de transformeurs auto-supervisés. Cette approche élimine la nécessité des annotations manuelles. Les pseudo-annotations et les étiquettes de classe servent à entraîner le modèle. Le modèle est constitué d’une épine dorsale de transformeur avec deux têtes : l’une pour générer des cartes de localisation et l’autre pour produire des scores de classification.

La fonction de DiPS est la génération de pseudo-annotations. Pour générer des pseudo-annotations de terrain, nous avons d’abord extrait l’attention du transformeur auto-supervisé. Les cartes d’attention peuvent contenir différents objets. Pour filtrer les régions d’objets pertinents, nous avons donc utilisé ces cartes pour perturber les images en cachant les objets non pertinents. Ensuite, nous avons entré les images dans un classificateur pré-entraîné et sélectionné les cartes les plus performantes, aux scores de classification les plus élevés, comme pseudo-étiquettes. Parmi ces cartes N, une carte représentative a été choisie pour échantillonner les pixels d’avant- et d’arrière-plan, sur la base des valeurs d’activation. Ces pseudo-pixels ont servi à entraîner un réseau de localisation, ce qui a permis d’identifier des objets. Grâce à notre approche, le réseau peut apprendre à partir d’annotations limitées de pseudo-pixels, afin d’explorer différentes parties de l’objet. La nécessité d’une annotation manuelle par des experts humains est éliminée, facilitant ainsi l’entraînement faiblement supervisé.

Étapes de formation et d'inférence dans un modèle d'apprentissage automatique avec étapes de localisation et de classification.

Fig. 1. DiPS : méthode que nous proposons pour entraîner un réseau de transformeurs aux tâches faiblement supervisées, en combinant les réseaux de localisation et de classification. Le modèle entier est composé d’un encodeur de vision de transformeur, d’une tête de classification et d’une tête de localisation. Entraînement : une étiquette de classe d’image entraîne la tête de classification, et nos pseudo-étiquettes générées par pixel entraînent la tête de localisation.

Résultats

DiPS a été testé sur plusieurs ensembles de données complexes, notamment ILSVRC, OpenImages et CUB-200-2011, et affichait des performances de localisation supérieures à celles des méthodes existantes. En outre, le modèle proposé a démontré sa capacité à couvrir toutes les parties de l’objet, contrairement à d’autres méthodes. Par exemple, DiPS a surpassé les modèles de pointe dans l’ensemble de données CUB, comme le montre l’image ci-dessous. Pour une analyse détaillée, veuillez consulter l’article publié.

Comparaison visuelle de diverses techniques de visualisation de caractéristiques et mécanismes d'attention dans des modèles d'apprentissage profond.

Complément d’information

Pour plus d’informations sur cette recherche, veuillez lire l’article suivant : Murtaza, Shakeeb, et al. "DiPS: Discriminative pseudo-label sampling with self-supervised transformers for weakly supervised object localization." Image and Vision Computing 140 (2023): 104838.

Articles à la une

Toutes les actualités

Portes ouvertes

Modèle d’apprentissage profond pour la localisation d’objets

Sommaire

Coûts élevés de l’annotation

DiPS : Une nouvelle approche

Résultats

Complément d’information

Articles à la une

Gala de l'ADRIQ
De beaux honneurs pour notre communauté

Examens finaux (8 au 18 décembre) | Évitez les mauvaises surprises!

Alan Carter : nouveau doyen de la recherche de l’ÉTS

Portes ouvertes

Modèle d’apprentissage profond pour la localisation d’objets

Sommaire

Coûts élevés de l’annotation

DiPS : Une nouvelle approche

Résultats

Complément d’information

Articles à la une

Gala de l'ADRIQ De beaux honneurs pour notre communauté

Examens finaux (8 au 18 décembre) | Évitez les mauvaises surprises!

Alan Carter : nouveau doyen de la recherche de l’ÉTS

Gala de l'ADRIQ
De beaux honneurs pour notre communauté