
Les systèmes de vision IA sont souvent moins performants lorsque soumis à des échantillons qui différents visuellement de ceux qui ont servi à leur entraînement. Par exemple, un système de conduite autonome entraîné dans des conditions estivales pourrait devoir circuler sur des routes enneigées, en hiver, de nuit. Nos recherches présentent la synthèse de domaine guidée par rétroaction (Feedback-Guided Domain Synthesis - FDS), une méthode formée de modèles avancés de génération d’images pour créer des variations réalistes et inédites d’objets et de scènes. En entraînant l’IA sur cet ensemble d’échantillons plus riche et plus diversifié, nous améliorons sa capacité à interpréter des conditions inconnues. Cette approche entraîne ainsi des performances plus fiables dans des applications allant de la conduite autonome à l’imagerie médicale.
Pourquoi l’IA doit gérer des domaines inconnus
Les systèmes de vision IA servent de plus en plus dans des applications critiques de sécurité, des voitures autonomes aux diagnostics médicaux. Dans ces contextes, les conditions visuelles rencontrées diffèrent souvent des données d’entraînement, un phénomène appelé « décalage de domaine ». Même de petits changements dans l’éclairage, la texture, le style ou les réglages de l’appareil photo peuvent nuire à la fiabilité de ces systèmes. Traditionnellement, on adapte le système après son déploiement, ce qui entraîne une annotation manuelle, du temps et des coûts supplémentaires. On peut aussi simuler de nouvelles conditions par de légères manipulations d’images, ce qui rend rarement la complexité du monde réel. Il faut trouver un moyen plus puissant et plus réaliste de préparer l’IA à interpréter des domaines inconnus.
Notre approche
Nous avons développé une méthode baptisée FDS, une approche basée sur une technologie avancée de génération d’images (modèles de diffusion), afin de préparer les systèmes de vision IA à des conditions inconnues. Plutôt que de s’appuyer uniquement sur les données d’entraînement existantes, la FDS génère de nouveaux pseudo-domaines réalistes en mélangeant les caractéristiques de plusieurs domaines connus. Par exemple, on fusionne l’aspect visuel de photographies avec la texture et la structure de croquis faits main. Un mécanisme de rétroaction évalue ensuite ces images synthétiques et sélectionne celles qui vont donner le plus de difficultés à l’IA. Ainsi l’entraînement porte sur des exemples qui apprendront le plus à l’IA.

En apprenant à partir de pseudo-domaines diversifiés et réalistes, l’IA peut cibler les caractéristiques invariables du domaine, soit les aspects d’un objet qui restent constants, quel que soit le style ou la présentation visuelle. Cette capacité à reconnaître ce qui définit véritablement un objet, plutôt que son apparence superficielle, rend le système plus robuste devant des domaines entièrement nouveaux après son déploiement.
Résultats et portée
Nous avons évalué la FDS sur trois bancs d’essai très utilisés dans la généralisation de domaine : PACS, VLCS et OfficeHome. Dans tous les cas, l’IA a été entraînée sur plusieurs domaines sources et testée sur un domaine totalement inconnu. Par rapport aux méthodes de référence performantes, la FDS a systématiquement démontré des performances supérieures, établissant de nouveaux records pour plusieurs scénarios.

À noter que ces gains ont été obtenus sans accroître la complexité du modèle lors du déploiement. Ces améliorations sont entièrement dues à un meilleur entraînement, grâce aux pseudo-domaines réalistes et variés générés au cours du processus.
Ainsi, pour les applications concrètes, les systèmes IA formés avec la FDS sont mieux préparés à gérer de nouveaux environnements dès le départ. Qu’il s’agisse de reconnaître un objet dans un nouveau style artistique, d’identifier les produits d’un autre fabricant ou d’interpréter des images médicales provenant d’équipements inconnus, la FDS permet de maintenir la fiabilité même lorsque les conditions changent.

Aperçu de la méthode proposée
- Montrer que les modèles de diffusion peuvent être entraînés sur plusieurs domaines sources afin de générer des pseudo-domaines réalistes.
- Proposer une stratégie de rétroaction pour sélectionner les images synthétiques les plus complexes, en concentrant l’entraînement sur ce qui améliore le plus la robustesse.
- Atteindre des performances de pointe sur les bancs d’essai standards de généralisation de domaine.
- Maintenir la même complexité de déploiement, sans coûts supplémentaires au moment de l’inférence.
Conclusion et perspectives d’avenir
Notre méthode, FDS, crée des pseudo-domaines réalistes qui aident les systèmes de vision IA à cibler les caractéristiques présentes dans tous les environnements, les rendant plus fiables dans des conditions inconnues. Bien que la FDS ait été développée pour la classification d’images, les principes qui la sous-tendent peuvent s’adapter à d’autres tâches de vision artificielle, comme la détection ou la segmentation d’objets, moyennant quelques modifications appropriées. À mesure que l’IA assume des rôles plus critiques en matière de sécurité, des méthodes comme la FDS seront essentielles pour maintenir des performances fiables, même lorsque le monde diffère des données d’entraînement.
Informations complémentaires
Pour plus d’informations sur cette recherche, veuillez lire l’article suivant :
Feedback-Guided Domain Synthesis with Multi-Source Conditional Diffusion Models for Domain Generalization. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2025.
Remerciements
Nous sommes reconnaissants à nos collaborateurs et aux personnes qui nous ont soutenus et rendu cette recherche possible.