Abstract – Un nuovo studio di Apple mette alla prova i Large Reasoning Models con puzzle a complessità controllata e mostra un dato sorprendente: oltre una certa soglia, il “pensiero” collassa. I modelli migliorano con problemi mediamente complessi, ma falliscono su pianificazioni profonde, anche quando viene fornito l’algoritmo. Non è la fine del ragionamento artificiale, ma l’individuazione di un limite strutturale del paradigma attuale — e forse un indizio su dove cercare la prossima svolta.
Un recente lavoro di un gruppo di ricerca di Apple intitolato The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity (https://arxiv.org/abs/2506.06941) offre una delle analisi empiriche più stimolanti degli ultimi mesi sui cosiddetti Large Reasoning Models (LRM), cioè quei modelli – come Claude 3.7 Thinking, DeepSeek-R1 o le serie “o” di OpenAI – progettati per generare lunghe catene di pensiero prima di fornire una risposta finale. In un momento in cui il dibattito pubblico oscilla tra l’entusiasmo per il “ragionamento emergente” e lo scetticismo radicale sulla natura puramente statistica di questi sistemi, il paper propone un approccio più controllato e metodologicamente rigoroso.
Gli autori, (Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar) partono dalla seguente constatazione: le valutazioni correnti delle capacità di ragionamento dei modelli si basano quasi esclusivamente su benchmark matematici come MATH o AIME. Questi test sono utili, ma presentano due limiti strutturali. Da un lato, non consentono un controllo sistematico della complessità del problema; dall’altro, possono essere soggetti a fenomeni di contaminazione dei dati di addestramento, rendendo difficile distinguere tra reale generalizzazione e raffinata interpolazione statistica. In altre parole, non è chiaro se le buone performance dei Reasoning Models riflettano una nuova forma di capacità inferenziale o semplicemente una migliore sfruttamento di schemi già noti.
Per affrontare questo problema, il paper introduce un paradigma sperimentale alternativo, basato su rompicapo controllabili sperimentalmente come la Tower of Hanoi, il Checker Jumping, il River Crossing e il Blocks World. Questi compiti permettono di variare con precisione la complessità composizionale mantenendo invariata la struttura logica del problema. Inoltre, grazie a simulatori deterministici, è possibile verificare non solo la correttezza della risposta finale, ma anche la validità dei singoli passaggi all’interno delle tracce di pensiero generate dal modello. Questo elemento sposta l’attenzione dall’accuratezza finale alla dinamica interna del ragionamento.
Il risultato più significativo è l’identificazione di tre regimi distinti di comportamento in funzione della complessità. Per problemi semplici, i modelli standard, privi di “thinking mode”, ottengono performance comparabili o talvolta superiori rispetto ai modelli di ragionamento, con maggiore efficienza. A complessità intermedia, invece, i Reasoning Models mostrano un vantaggio netto, sfruttando le catene di pensiero estese per esplorare più sistematicamente lo spazio delle soluzioni. Tuttavia, superata una certa soglia di complessità, entrambi i tipi di modello collassano, con l’accuratezza che scende a zero.
La dinamica di questo collasso è la sorpresa dello studio. I modelli aumentano progressivamente il numero di token dedicati al “thinking” al crescere della complessità, ma avvicinandosi alla soglia critica iniziano paradossalmente a ridurre lo sforzo inferenziale, pur disponendo ancora di ampio spazio di generazione. Non si tratta quindi semplicemente di un limite quantitativo di calcolo, ma sembra emergere una sorta di instabilità strutturale nel mantenere coerenza composizionale profonda.
Ancora più sorprendente è il fatto che fornire esplicitamente l’algoritmo da eseguire – ad esempio nel caso della Tower of Hanoi – non migliori in modo sostanziale la prestazione. Il problema non risiede solo nella ricerca della soluzione, ma nell’esecuzione stabile di una procedura complessa.
Il titolo del paper, volutamente provocatorio, parla di “illusione del pensiero”. È importante, tuttavia, evitare letture troppo drastiche. I risultati non dimostrano che il ragionamento artificiale sia un’illusione in senso forte né che sistemi di questo tipo siano incapaci in linea di principio di sostenere forme robuste di inferenza. Ciò che emerge è un limite architetturale del paradigma transformer autoregressivo. Anche quando potenziati con Reinforcement Learning e meccanismi di auto-riflessione, tali sistemi non sembrano implementare in modo nativo rappresentazioni gerarchiche persistenti né una manipolazione esplicita di spazi di stati complessi. Il loro “pensiero” appare un’estensione dinamica della traiettoria di predizione testuale, più che come una vera pianificazione strutturata.
In questo senso, il collasso osservato non è tanto la smentita del ragionamento artificiale, quanto la delimitazione più precisa di ciò che un sistema puramente autoregressivo può sostenere. La ricerca fornisce una diagnosi dei punti di rottura del paradigma attuale. L’individuazione di una soglia di complessità oltre la quale la coerenza composizionale si dissolve suggerisce che il futuro del ragionamento artificiale potrebbe non consistere semplicemente nell’aumentare il numero di parametri o il numero di token, ma nel ripensare l’architettura stessa. Potrebbero essere necessarie forme di memoria strutturata persistente, una separazione più netta tra generazione linguistica e ricerca nello spazio dei problemi, o integrazioni più profonde tra componenti neurali e simboliche.
Al di là delle implicazioni tecniche, il lavoro riapre una questione epistemologica fondamentale. Che cosa intendiamo quando attribuiamo “pensiero” a un sistema artificiale? Se il pensiero implica la manipolazione stabile di strutture astratte e la pianificazione ricorsiva su spazi di stati espliciti, allora i Reasoning Models attuali ne offrono una simulazione potente ma limitata. Se invece lo definiamo quale produzione coerente di traiettorie inferenziali linguisticamente articolate, i risultati mostrano una competenza significativa, anche se non generalizzata. In entrambi i casi, il contributo della ricerca è demolitorio è utilmente chiarificatore. In un contesto spesso polarizzato tra annunci di quasi-intelligenza generale e accuse di puro “stochastic parroting”, lavori di questo tipo aiutano a mappare con maggiore precisione i limiti e le potenzialità del paradigma corrente.
Ed è proprio nella diagnosi rigorosa dei limiti che può intravedersi la strada verso nuove forme di pensiero artificiale, forse meno lineari, meno puramente autoregressive e più strutturalmente orientate alla manipolazione esplicita della complessità.
Redazione Sepai



