ChatGPT n’a pas seulement passé le test de Turing… il l’a retourné !

paultensor
Lecture en 3 min
À propos des liens affiliés : Sur ce site, certains liens sont affiliés. Cela signifie que si vous cliquez et effectuez un achat, je peux recevoir une petite commission, sans frais supplémentaires pour vous. Je m’engage à recommander uniquement des produits et services que j’ai testés ou qui reflètent des standards de qualité élevés. Ces contributions me permettent de maintenir ce site et de continuer à partager du contenu qui vous est utile. Merci pour votre confiance et votre soutien !

Des chercheurs ont soumis plusieurs chatbots à un test de Turing. GPT-4.5 a passé le test avec brio, étant fréquemment jugé plus humain qu’un adversaire humain.

Comment distinguer un chatbot d’un humain ? En 1950, le mathématicienmathématicien britannique Alan TuringAlan Turing avait proposé un test pour évaluer l’intelligenceintelligence d’une machine en ayant un humain (l’interrogateur) qui discute par écrit à la fois avec une IAIA et un autre humain (les témoins). Si l’interrogateur n’arrive pas à déterminer lequel est le chatbot, celui-ci est considéré comme étant capable de penser comme un humain.

Dans un article en prépublication, des chercheurs de l’université de Californie à San Diego ont soumis plusieurs grands modèles de langage à un test de Turing, avec des résultats surprenants. L’étude s’est déroulée en deux phases, la première avec 138 étudiants de l’université, la seconde avec 169 volontaires recrutés en ligne. Ils ont participé à une série de huit jeux, dont la moitié en tant qu’interrogateur, l’autre moitié en tant que témoin.

Un chatbot jugé plus humain que les humains

Les chercheurs ont fait appel à quatre chatbots : ELIZA, le tout premier chatbot créé en 1966, GPT-4o, LLaMa-3.1-405B, et GPT-4GPT-4.5. Dans la moitié des cas, LLaMa-3.1 et GPT-4.5 ont reçu la consigne de se comporter comme un humain. Sans surprise, ELIZA n’a été désigné comme l’humain que dans 23 % des cas. Plus étonnant, GPT-4o a eu un score encore plus bas, avec seulement 21 %. Pour les deux autres, leurs scores ont été nettement plus élevés avec la consigne d’adopter un comportement humain. LLaMa-3.1 a été désigné comme humain dans 56 % des cas, mais pour les chercheurs ce n’était pas suffisamment différent d’un choix au hasard.

La grande surprise a été GPT-4.5. Sans consigne, il n’obtient un score que de 36 %. Avec la consigne de se faire passer pour un humain, les participants l’ont désigné en tant que tel dans 73 % des cas plutôt que l’autre personne avec qui ils discutaient. C’est un score impressionnant, mais qui ne signifie pas pour autant que le chatbot a dépassé l’humain. Il souligne surtout l’évolution dans la manière dont les IA sont perçues. Confronté à des personnes qui utilisent régulièrement les chatbots, le score pourrait être différent.

Partager cet article