démasquer une intelligence artificielle supérieure

paultensor
Lecture en 3 min
À propos des liens affiliés : Sur ce site, certains liens sont affiliés. Cela signifie que si vous cliquez et effectuez un achat, je peux recevoir une petite commission, sans frais supplémentaires pour vous. Je m’engage à recommander uniquement des produits et services que j’ai testés ou qui reflètent des standards de qualité élevés. Ces contributions me permettent de maintenir ce site et de continuer à partager du contenu qui vous est utile. Merci pour votre confiance et votre soutien !

La fondation ARC Prize vient de publier une nouvelle version, revue et corrigée, de son test d’intelligence artificielle générale ARC-AGI. Cette mouture reste relativement simple pour les humains, mais les chatbots obtiennent des scores particulièrement mauvais.

Le but ultime de la recherche sur l’intelligenceintelligence générale n’est pas les chatbots tels qu’on les connaît. Les scientifiques visent une IA capable de rivaliser avec l’intelligence humaine, baptisée intelligence artificielle généraleintelligence artificielle générale (IAG ou AGI en anglais). Selon certains, il faudrait encore des décennies avant d’y parvenir. Pour d’autres, comme Sam Altman d’OpenAI, ce ne serait plus qu’une question de mois.

Pour savoir si nous y sommes parvenus, il faut un test capable de mesurer la progression des différents modèles d’IA. C’était ce à quoi devait servir le test ARC-AGI. Toutefois, en fin d’année dernière, il a été battu par le modèle o3 d’OpenAI, qui est loin d’avoir atteint le niveau d’AGI. La fondation ARC Prize a donc revu sa copie et a sorti une nouvelle version, ARC-AGI-2.

Un test facile pour les humains, et difficile pour l’intelligence artificielle

Le nouveau test est composé de puzzles, plutôt que des questionnaires de connaissances. Il faut identifier et reproduire des transformations visuelles. Sur un échantillon de 400 humains, le score moyen était de 60 %. La plupart des modèles d’IA tournent autour de 1 %. Même OpenAI o3, qui a atteint 75,7 % sur la première version, n’a pas réussi à dépasser 4 % sur cette nouvelle itération. Ce test corrige les failles du précédent, notamment en évitant que les IA puissent trouver les réponses par la force brute. Il s’intéresse aussi à l’efficacité.

« L’intelligence ne se définit pas uniquement par la capacité à résoudre des problèmes ou à obtenir des scores élevés, explique Greg Kamradt, cofondateur de la fondation ARC Prize. L’efficacité avec laquelle ces capacités sont acquises et déployées est un élément crucial et déterminant. La question centrale posée n’est pas seulement « L’IA peut-elle acquérir une compétence pour résoudre une tâche ? » mais aussi « À quelle efficacité ou à quel coût ? ». »

La fondation a même annoncé un concours avec un grand prix de 700 000 dollars. Il suffit que l’IA atteigne un score de 85 %, et en même temps que son fonctionnement coûte moins 0,42 dollar pour chaque tâche. Rien que ça. À titre de comparaison, pour atteindre un score de 4 % sur ARC-AGI-2, OpenAI o3 a coûté 200 dollars par tâche. Les gagnants, dans le cas éventuel où quelqu’un y parvient, seront annoncés le 5 décembre 2025. Les tâches sont aussi disponibles pour les humains directement sur le site de la fondation ARC Prize.

Partager cet article