Des chercheurs ont soumis plusieurs chatbots à un test de Turing. GPT-4.5 a passé le test avec brio, étant fréquemment jugé plus humain qu’un adversaire humain.
Comment distinguer un chatbot d’un humain ? En 1950, le mathématicienmathématicien britannique Alan TuringAlan Turing avait proposé un test pour évaluer l’intelligenceintelligence d’une machine en ayant un humain (l’interrogateur) qui discute par écrit à la fois avec une IAIA et un autre humain (les témoins). Si l’interrogateur n’arrive pas à déterminer lequel est le chatbot, celui-ci est considéré comme étant capable de penser comme un humain.
Dans un article en prépublication, des chercheurs de l’université de Californie à San Diego ont soumis plusieurs grands modèles de langage à un test de Turing, avec des résultats surprenants. L’étude s’est déroulée en deux phases, la première avec 138 étudiants de l’université, la seconde avec 169 volontaires recrutés en ligne. Ils ont participé à une série de huit jeux, dont la moitié en tant qu’interrogateur, l’autre moitié en tant que témoin.
Un chatbot jugé plus humain que les humains
Les chercheurs ont fait appel à quatre chatbots : ELIZA, le tout premier chatbot créé en 1966, GPT-4o, LLaMa-3.1-405B, et GPT-4GPT-4.5. Dans la moitié des cas, LLaMa-3.1 et GPT-4.5 ont reçu la consigne de se comporter comme un humain. Sans surprise, ELIZA n’a été désigné comme l’humain que dans 23 % des cas. Plus étonnant, GPT-4o a eu un score encore plus bas, avec seulement 21 %. Pour les deux autres, leurs scores ont été nettement plus élevés avec la consigne d’adopter un comportement humain. LLaMa-3.1 a été désigné comme humain dans 56 % des cas, mais pour les chercheurs ce n’était pas suffisamment différent d’un choix au hasard.
La grande surprise a été GPT-4.5. Sans consigne, il n’obtient un score que de 36 %. Avec la consigne de se faire passer pour un humain, les participants l’ont désigné en tant que tel dans 73 % des cas plutôt que l’autre personne avec qui ils discutaient. C’est un score impressionnant, mais qui ne signifie pas pour autant que le chatbot a dépassé l’humain. Il souligne surtout l’évolution dans la manière dont les IA sont perçues. Confronté à des personnes qui utilisent régulièrement les chatbots, le score pourrait être différent.