29 avril 2026

Recherche et innovation Les systèmes intelligents et autonomes

Quand l’IA génère des idées : mesurer la performance créative des modèles de langage

Un cerveau stylisé en bleu évoquant l'intelligence artificielle, entouré de circuits numériques futuristes.

L’intelligence artificielle générative s’impose progressivement dans les processus d’idéation, de conception et d’innovation. Des designers aux ingénieurs, en passant par les équipes de stratégie, les modèles de langage (LLM) sont de plus en plus mobilisés pour explorer des pistes nouvelles, structurer des réflexions ou multiplier les options possibles. Mais une question demeure : ces systèmes sont-ils réellement performants sur le plan créatif, et surtout, comment l’évaluer?

C’est à cette question que s’attaque le professeur Romain Rampa, de l’ÉTS, avec des collègues comme Florian Carichon du Mila (Institut québécois d’intelligence artificielle), dans un projet de recherche consacré à la performance créative des LLM. Son objectif : dépasser les approches actuelles, souvent limitées, pour proposer une évaluation plus rigoureuse et plus représentative des problématiques réelles.

Une performance créative encore mal évaluée

Depuis quelques années, un consensus semble émerger : les LLM seraient capables d’atteindre, voire de dépasser, le niveau des humains pour certaines tâches associées à la créativité. Mais selon Romain Rampa (PhD), ce constat repose largement sur des méthodes d’évaluation biaisées.

La majorité des études existantes s’appuie sur des tests très spécifiques, comme la génération d’usages alternatifs pour un objet ou la production de mots très éloignés les uns des autres. Ces exercices mesurent principalement la divergence, c’est-à-dire la capacité à produire un grand nombre d’idées variées.

Or, ces tâches présentent plusieurs limites. D’une part, elles sont souvent déjà présentes dans les données d’entraînement des modèles, ce qui peut fausser les résultats. D’autre part, elles ne couvrent qu’une facette restreinte de la créativité. Concevoir un produit, élaborer une stratégie ou répondre à un problème ambigu implique bien plus que de générer des idées diverses en grand nombre.

Un nouveau banc d’essai pour des situations plus réalistes

Pour dépasser ces limites, l’équipe de recherche a développé un nouveau cadre d’évaluation de tâches d’idéation inspiré de situations concrètes de conception.

Ce banc d’essai inclut un large éventail de défis : conception de produits, création de services, résolution de problèmes complexes, voire éthiquement ambigus, et élaboration de stratégies. L’objectif est de se rapprocher des contextes dans lesquels humains et IA sont réellement amenés à produire des idées.

Six modèles ont été testés (GPT-4, Claude Sonnet 4.5, Llama 3, Qwen 3.5, Grok et Gemini) sur plus de 14 000 tâches chacun. Au total, près de trois millions d’idées ont été générées, constituant une base de données sans précédent pour analyser les performances de ces systèmes.

Mesurer la performance créative

Pour évaluer ces résultats, les chercheurs s’appuient sur quatre dimensions principales :

La fluidité : le nombre d’idées produites
La variété : la diversité des catégories explorées
L’originalité : la nouveauté des idées, mesurée par leur rareté et par rapport à une requête de contrôle.
La pertinence par rapport à la tâche, avec des métriques comme la perplexité.

Cette approche permet de fournir une évaluation à plusieurs facettes pour mieux prendre en compte la qualité et la diversité des propositions.

Romain Rampa, professeur à l’ÉTS

Les méthodes de créativité sont-elles transposables?

Un autre volet central du projet consiste à tester l’effet des méthodes classiques de créativité et de design sur les performances des LLM. Des approches comme le brainstorming, le design thinking, TRIZ ou encore la théorie C-K ont été traduites en requêtes afin d’observer leur incidence.

Les chercheurs ont également expérimenté d’autres méthodes spécifiquement adaptées aux modèles, comme la génération par négation de catégories, qui consiste à demander explicitement au système de s’éloigner des solutions habituelles par itération.

L’objectif est de déterminer si les outils conçus pour structurer la production d’idées chez les humains sont efficaces lorsqu’ils sont appliqués à des modèles de langage, ou s’il faut développer des approches propres à ces systèmes.

Des résultats éclairants

Les résultats préliminaires mettent en évidence plusieurs tendances.

D’abord, les performances varient selon les modèles. Certains, comme Grok, se distinguent par une production plus abondante et plus diversifiée d’idées, avec un niveau d’originalité plus élevé, mais parfois au détriment de la pertinence. D’autres modèles adoptent une approche plus conservatrice.

Ensuite, la formulation des requêtes joue un rôle déterminant. Les requêtes simples, qui incitent explicitement à sortir des catégories familières, donnent souvent de meilleurs résultats que les méthodologies complexes en plusieurs étapes. L’introduction d’éléments inattendus ou inhabituels dans les briefs favorise également la production d’idées plus originales.

Enfin, une forme d’homogénéisation entre les modèles apparaît : face à un même problème, ils tendent à produire des réponses similaires. Cela suggère que les systèmes explorent souvent des solutions déjà largement représentées dans leurs données d’entraînement.

Par ailleurs, comme chez les humains, les modèles semblent plus performants pour générer des idées liées à des produits que pour traiter des procédures ou des innovations organisationnelles, qui exigent une structuration plus abstraite.

Vers une meilleure utilisation des LLM en idéation

Au-delà de la comparaison entre modèles, cette recherche vise à mieux comprendre comment intégrer efficacement les LLM dans les processus d’idéation.

L’équipe s’intéresse à développer d’autres projets pour mieux comprendre les interactions entre humains et IA : comment les idées évoluent-elles lorsqu’elles sont enrichies par des contributions successives? Quels rôles respectifs peuvent jouer les humains et les systèmes dans un processus collaboratif?

Les retombées attendues sont à la fois scientifiques et pratiques. Pour la recherche, le projet propose une nouvelle base de référence pour évaluer la performance créative des modèles. Pour les organisations, il pourrait déboucher sur des recommandations concrètes quant aux stratégies de formulation des requêtes et aux méthodes les plus adaptées selon les contextes.

Une méthodologie appelée à évoluer

Le cadre développé par l’équipe de recherche ouvre également la porte à de futurs développements. Il pourrait notamment intégrer d’autres dimensions, comme les enjeux éthiques liés à la génération d’idées. Car au-delà de la quantité et de l’originalité, se pose la question de la pertinence et de la responsabilité des solutions proposées.

En cherchant à mieux caractériser la performance des modèles de langage dans des contextes de conception, cette recherche contribue à structurer un champ encore émergent, à la croisée de l’intelligence artificielle, du design et de la gestion de l’innovation.

Une chose est certaine : à mesure que ces outils s’intègrent dans les pratiques professionnelles, comprendre leurs forces et leurs limites devient essentiel pour en faire un usage éclairé.

Articles à la une

Toutes les actualités

Portes ouvertes