Des chercheurs d’Apple remettent en question le raisonnement par les IA, juste avant la WWDC 2025
Juste avant la WWDC 2025, une étude publiée par le groupe d’Apple sur la recherche pour l’apprentissage automatique secoue le monde de l’intelligence artificielle. Elle remet en cause la capacité des grands modèles de langage (LLM), comme o1 d’OpenAI ou les variantes pensantes de Claude, à véritablement raisonner. Les chercheurs d’Apple révèlent des failles fondamentales, suggérant que ces systèmes s’appuient davantage sur la reconnaissance de motifs que sur un raisonnement authentique.
Une méthodologie innovante pour tester le raisonnement
Pour évaluer les capacités de raisonnement des modèles d’IA, les chercheurs d’Apple ont évité les benchmarks mathématiques classiques. À la place, ils ont conçu des environnements de puzzles contrôlés, comme la tour de Hanoï ou le problème de la traversée de la rivière. Ces tests ont permis d’analyser non seulement les réponses finales, mais aussi les traces internes du raisonnement à différents niveaux de complexité.
Les résultats sont surprenants. En effet, tous les modèles testés, y compris o3-mini, DeepSeek-R1 et Claude 3.7 Sonnet, ont vu leur précision s’effondrer au-delà d’un certain seuil de complexité, atteignant un taux de réussite nul malgré des ressources informatiques suffisantes. Plus troublant encore, les modèles réduisent leur effort de réflexion face à des problèmes plus complexes, révélant des limites structurelles plutôt qu’un manque de puissance de calcul. Même lorsque les chercheurs ont fourni des algorithmes de solution complets, les modèles ont échoué aux mêmes points de complexité, indiquant un problème dans l’exécution des étapes logiques de base.
Des incohérences et une dépendance à la reconnaissance de motifs
L’étude met en lumière des comportements incohérents : certains modèles réussissent des puzzles nécessitant plus de 100 étapes, mais échouent sur des problèmes plus simples qui demandent seulement 11 étapes. Les chercheurs ont également identifié trois régimes de performance distincts : à faible complexité, les modèles standards surpassent les modèles de raisonnement ; à complexité moyenne, les modèles de raisonnement prennent l’avantage ; à haute complexité, tous échouent systématiquement. En analysant les traces de raisonnement, les chercheurs ont observé des schémas de réflexion excessive : les modèles trouvent parfois la bonne solution rapidement, mais gaspillent des ressources à explorer des alternatives erronées.
Ces résultats suggèrent que les modèles de raisonnement reposent sur une reconnaissance sophistiquée de motifs plutôt que sur une véritable capacité de raisonnement. Contrairement aux humains, ces systèmes ne mettent pas à l’échelle leur réflexion de manière efficace, préférant faire une analyse trop poussée pour les problèmes simples et sous-analyser les plus complexes.
Un timing révélateur avant la WWDC 2025
La publication de cette étude, juste avant la WWDC 2025, intervient à un moment où Apple devrait mettre l’accent sur de nouvelles fonctionnalités logicielles, notamment iOS 26, plutôt que sur des avancées majeures en IA. Cette stratégie pourrait refléter une approche prudente, alors que l’étude met en lumière les limites actuelles des technologies d’IA concurrentes. En attendant les annonces de ce soir, cette étude d’Apple invite à repenser les attentes autour des capacités de raisonnement des grands modèles de langage.