Hallucinations des IA
Pourquoi les Modèles de Langage hallucinent : révélations
Vous avez probablement déjà vécu ce moment étrange. Vous posez une question simple à une intelligence artificielle, et elle vous répond avec une assurance déconcertante, mais sa réponse est complètement fausse. C’est exactement ce qui est arrivé à l’un des auteurs d’une récente étude, Adam Tauman Kalai. En demandant à une IA de pointe sa propre date d’anniversaire, et en précisant bien de ne répondre que si elle la connaissait, il a reçu trois réponses différentes et incorrectes : « 03-07 », « 15-06 » et « 01-01 ». L’IA n’a jamais admis qu’elle ne savait tout simplement pas.
Ce phénomène, que l’on nomme « hallucination », est devenu un des problèmes les plus frustrants et les plus discutés de l’IA. Mais s’agit-il d’un simple bug, d’un dysfonctionnement aléatoire que l’on finira par corriger ? Ou est-ce le symptôme d’un problème plus profond dans la manière même dont nous concevons, entraînons et évaluons ces systèmes ?
Un article de recherche récent (Kalai et al., 2025) vient de lever le voile sur ce mystère. Il révèle que les hallucinations ne sont pas une anomalie, mais une conséquence logique et prévisible de notre approche. En d’autres termes, non seulement nous avons créé les conditions parfaites pour que les IA hallucinent, mais nous continuons de les y encourager activement.
L’hallucination n’est pas un bug, c’est une conséquence statistique de la formation
Contrairement à ce que l’on pourrait penser, une hallucination n’est pas un court-circuit dans le « cerveau » de l’IA. C’est une forme d’erreur statistique tout à fait attendue. L’article utilise une analogie parlante pour illustrer ce point :
Comme les étudiants confrontés à des questions d’examen difficiles, les grands modèles de langage devinent parfois lorsqu’ils sont incertains, produisant des déclarations plausibles mais incorrectes au lieu d’admettre leur incertitude.
L’idée centrale de la recherche est de montrer que générer une réponse entièrement valide est, d’un point de vue mathématique, beaucoup plus difficile que de simplement classer une réponse existante comme étant valide ou non.
Pour le dire simplement, imaginez deux défis.
Défi A (génération) :
« Écrivez une phrase factuellement correcte sur la Révolution française. »
Défi B (classification) :
« Voici une phrase sur la Révolution française. Est-elle correcte oui ou non ? ».
Le défi A est bien plus difficile. L’apport majeur de l’article est de prouver un lien mathématique direct entre les deux : le taux d’erreur d’un modèle sur la tâche difficile (génération) est au moins le double de son taux d’erreur sur la tâche supposément simple (classification).
C’est dans cet écart de difficulté que les erreurs, y compris les hallucinations, apparaissent de manière quasi inévitable.
Le pré-entraînement lui-même force les IA à faire des erreurs, même avec des données sans erreur
Voici l’une des révélations les plus surprenantes de l’étude : même si nous pouvions entraîner une IA sur un ensemble de données d’entraînement absolument sans erreur, le processus de pré-entraînement la pousserait quand même à générer des erreurs.
Pour comprendre pourquoi, il faut se pencher sur l’objectif mathématique principal de cette phase. Le but n’est pas d’être « vrai » à tout prix, mais de devenir un excellent modèle statistique du langage humain, ce que les chercheurs appellent « l’estimation de densité ».
Un modèle qui, pour éviter toute erreur, répondrait systématiquement « Je ne sais pas » serait un très mauvais modèle statistique. Il échouerait complètement à sa mission première, qui est de prédire des séquences de mots plausibles.
Un concept clé pour comprendre cela est la « calibration ». Un modèle bien calibré est un modèle dont la confiance correspond à sa précision. S’il dit être sûr à 80 % d’une réponse, il a raison environ 80 % du temps. L’étude souligne que, paradoxalement, les modèles de base après pré-entraînement sont souvent bien calibrés.
Et c’est précisément cette « honnêteté » statistique qui les force à générer des erreurs. Pour être un bon modèle de la distribution du langage, ils ne peuvent pas se contenter de ne donner que des réponses certaines ; ils doivent aussi modéliser l’incertitude, ce qui, mathématiquement, les conduit à produire des erreurs. Comme le souligne l’article, « les erreurs sont une conséquence naturelle de l’objectif standard d’entropie croisée » utilisé lors de l’entraînement.
Ainsi, le pré-entraînement nous livre des modèles mathématiquement conçus pour faire des erreurs. On pourrait espérer que la phase suivante corrige ce défaut, mais comme nous allons le voir, nos méthodes d’évaluation ne font qu’aggraver le problème.
Nous entraînons les IA à bluffer, comme des étudiants passant un examen
Si la première phase (pré-entraînement) crée un terrain propice aux erreurs, la seconde phase (post-entraînement), qui est censée les corriger et réduire les hallucinations, est sapée par la manière dont nous évaluons les IA. Nous les mettons, en permanence, en « mode examen ».
Le problème vient des tests de référence (benchmarks) qui servent à classer les modèles. La grande majorité d’entre eux utilisent un système de notation binaire : 1 point pour une bonne réponse, 0 point pour une mauvaise réponse. Surtout, une abstention (comme répondre « Je ne sais pas ») rapporte également 0 point.
Dans un tel système, la meilleure stratégie pour maximiser son score est évidente : en cas de doute, il faut toujours deviner. Un modèle qui admet son ignorance est pénalisé de la même manière qu’un modèle qui donne une réponse erronée, mais un coup de chance peut lui rapporter un point. Nous avons donc créé un système qui récompense le bluff. L’article le résume de manière percutante :
Les modèles de langage sont principalement évalués à l’aide d’examens qui pénalisent l’incertitude. Par conséquent, ils sont toujours en « mode examen ».
La solution : changer les règles du jeu, pas seulement les joueurs
Face à ce constat, on pourrait penser qu’il suffit de créer de nouveaux tests dédiés à la détection des hallucinations. Mais selon les chercheurs, ce ne serait pas suffisant. Le problème est l' »épidémie » de pénalisation de l’incertitude qui gangrène toutes les évaluations principales, celles qui dominent les classements et orientent le développement de l’industrie.
La solution proposée est donc plus radicale : modifier les règles de notation des benchmarks les plus influents. Il s’agit de changer les incitations à la racine.
Par exemple, au lieu de simplement poser une question, l’instruction du test pourrait inclure une règle du jeu claire : « Répondez uniquement si vous êtes sûr à plus de 90 %, car une réponse incorrecte vous coûtera 9 points, tandis qu’une bonne réponse en vaut 1 et un ‘Je ne sais pas’ en vaut 0. » En rendant le seuil de confiance explicite, on incite les modèles à évaluer leur propre certitude, une compétence cruciale pour la fiabilité.
Cette approche transformerait le problème. D’un simple défi technique (comment empêcher une IA d’halluciner ?), il deviendrait un défi socio-technique pour l’ensemble du domaine (comment, en tant que communauté, pouvons-nous redéfinir le succès pour valoriser la fiabilité ?).
Conclusion
Le changement de perspective proposé par cette recherche est fondamental. Les hallucinations de l’IA ne sont pas une force mystérieuse ou un défaut de conception inexplicable. Elles sont le résultat direct, statistique et systémique, des incitations que nous avons nous-mêmes mises en place, que ce soit dans les objectifs mathématiques de l’entraînement ou dans les règles de notation de nos évaluations. Nous avons appris aux IA à deviner et à bluffer, et nous les récompensons pour cela.
Cela nous laisse avec cette question essentielle :
Maintenant que nous comprenons les racines statistiques et systémiques des hallucinations de l’IA, sommes-nous prêts, en tant que communauté, à modifier nos critères de succès pour privilégier la fiabilité plutôt que la simple performance brute ?
