Fabio Ciotti
Abstract
L’articolo discute due lavori di recente pubblicazione: Whither symbols in the era of advanced neural networks?, di Thomas L.Griffiths, Brenden M. Lake, R. Thomas McCoy, Ellie Pavlick e Taylor W. Webb, sullo statuto della nozione di simbolo nella cognizione; e How Linguistics Learned to Stop Worrying and Love the Language Models, di
Richard Futrell e Kyle Mahowald sul rapporto tra teoria linguistica e modelli del linguaggio. I due articoli, pur muovendo da questioni distinte, convergono su una medesima idea metateorica: gli LLM hanno na profonda rilevanza per le concezioni teoriche sul linguaggio e sulla mente. Questa rilevanza costituisce, a mio parere, un argomento a sostegno di quella che propongo di chiamare “ipotesi cognitiva debole sull’IA generativa”, secondo cui ad alcuni sistemi artificiali possono essere ascritte con ragione determinate proprietà cognitive, sulla base di un comportamentismo metodologico che trae ispirazione dalla posizione di Turing, e di un funzionalismo non riduzionista. La conclusione che ne traggo è che la tradizione rappresentazionalista e simbolica abbia scambiato un effetto per una causa, trattando come fondamento innato del linguaggio e della mente ciò che è invece un
esito storico e culturale dell’uso del linguaggio in alcuni domini circoscritti e specialistici, e che gli LLM, acquisendo le loro competenze linguistiche senza alcuna regola esplicita, offrono una dimostrazione empirica della plausibilità di questa tesi.
—-
This article examines two recently published papers. The first, ‘Whither Symbols in the Era of Advanced Neural Networks?’, by Thomas L. Griffiths, Brenden M. Lake, R. Thomas McCoy, Ellie Pavlick and Taylor W. Webb, considers the status of the notion of the symbol in cognition. The second, ‘How Linguistics Learned to Stop Worrying and Love the Language Models’, by Richard Futrell and Kyle Mahowald, considers the relationship between linguistic theory and language models. Although the two articles address different issues, they converge on the same metatheoretical idea: LLMs have profound relevance for theoretical conceptions of language and the mind. In my
view, this relevance constitutes an argument in support of what I propose to call the ‘weak cognitive hypothesis on generative AI’, according to which certain cognitive properties can reasonably be ascribed to some artificial systems on the basis of methodological behaviourism inspired by Turing’s position and non-reductionist functionalism. I conclude that the representationalist and symbolic tradition has mistaken an effect for a cause by treating a historical
and cultural outcome of language use in certain limited and specialised domains as an innate foundation of language and the mind. I also conclude that LLMs offer empirical evidence for the plausibility of this thesis by acquiring their linguistic competencies without any explicit rules.
1. Introduzione, ovvero, gli LLM e la loro natura fantastica
Chiunque abbia seguito il dibattito teorico sugli LLM negli ultimi anni sa che è caratterizzato da uno spettro a forte polarizzazione: da un lato la fazione, maggioritaria in prima approssimazione, di chi nega che questi sistemi abbiano alcuna rilevanza cognitiva o linguistica, liquidandoli come sofisticati predittori statistici; dall’altro chi è disponibile ad ascrivere loro una qualche proprietà mentale, fino ad arrivare ad estremi (per la verità abbastanza rari e quasi mai di estrazione filosofica) che sono inclini ad assegnare a questi sistemi già ora la dotazione di senzienza e coscienza. Qui non mette conto enumerare con dovizia di nomi, citazioni e dettagli i e le protagoniste delle varie fazioni.
Vorrei piuttosto proporre, sulla scorta di due articoli pubblicati di recente, alcune riflessioni di carattere eminentemente metateorico, per sostenere le ragioni della mia posizione nel suddetto spettro, una posizione che, in altra sede, ho proposto di chiamare ipotesi cognitiva debole sull’IA generativa. Grosso modo, l’idea è che, sulla base di una sorta di comportamentismo metodologico fondato sulle intuizioni esposte nel fondativo articolo di Turing (Turing 1950), ai sistemi linguistici e multimodali generativi possano essere ascritte con ragione alcune proprietà cognitive. Il catalogo è aperto e tutt’altro che definito allo stato attuale: io personalmente vi includo di sicuro la comprensione semantica e linguistica, il ragionamento, la dotazione di competenza culturale; su altre, come identità, coscienza, intelligenza emotiva, autonomia e agency in senso classico, non floridiano diciamo (Floridi 2025), le cose sono molto più complicate e contraddittorie. È un’ipotesi filosofica, che si pone nel terreno più generale di una visione naturalistica sui fatti mentali e cognitivi, e che include come giustificazione argomenti empirici, anche se al momento non viene esaurita da soli argomenti empirici. Questa ipotesi generale ammette anche un’estensione, secondo cui le proprietà cognitive dei sistemi artificiali possano fornirci alcune indicazioni, o almeno argomenti, per caratterizzare le proprietà cognitive umane, o, più in generale, quelle degli agenti intelligenti biologici, sulla base di una versione di funzionalismo che non imponga un vincolo riduzionista di corrispondenza uno a uno tra l’architettura e il funzionamento dei cervelli naturali e artificiali.
C’è un’obiezione preliminare che conviene affrontare subito, perché viene mossa spesso e funziona da strategia retorica per spostare il discorso: questi sistemi non sono nati per rispondere a domande scientifiche; sono prodotti, artefatti commerciali sviluppati da grandi aziende dedite al profitto e al dominio (cosa vera, si badi), e dunque non meritano lo statuto di oggetti teorici. Ma la genesi storica di un artefatto non ne determina la rilevanza epistemica: una volta che un sistema esiste e si comporta in un certo modo, quel comportamento è un fatto empirico con cui la filosofia e la scienza deve misurarsi. Anzi, come più volte ha osservato Daniel Dennett (eg. 1994), l’approccio ingegneristico non va sottovalutato come strategia di conoscenza quando abbiamo a che fare con problemi rognosi che la teoria e la filosofia non riescono a risolvere.
La dimostrazione pratica di quanto fosse ben riposta la considerazione di Dennett verso il sapere ingegneristico viene oggi dai modelli linguistici: cucinati con un po’ di teoria e con molta astuzia pratica da eccellenti informatici, tutti formatisi però fuori dai dettami sacri degli esperti di IA eredi della tradizione classica, hanno mostrato di possedere eccellenti capacità di comprensione e generazione del linguaggio, di apprendimento contestuale, di ragionamento, e oggi di pianificazione e comportamento orientato a scopi con gli agenti (e qui lo so bene che ci vuole più del solo LLM). E hanno mostrato, tra le altre cose, composizionalità, creatività, capacità almeno parziale di generalizzazione che le reti neurali a lungo si è creduto non potessero avere. La cosa notevole è che, contro ogni aspettativa, questi sistemi hanno persino appreso l’uso di linguaggi formali a un livello superumano, come dimostrano i risultati raggiunti nella produzione e analisi di codice informatico e nella dimostrazione matematica.
Una seconda puntualizzazione preliminare che conviene fare, perché su di essa si gioca buona parte dei fraintendimenti è che sostenere che i moderni modelli linguistici non sono altro che banali algoritmi statistici, è una fallacia di livello descrittivo. Ovviamente preso a un livello elementare e con varie idealizzazioni, è banalmente vero che un modello linguistico autoregressivo basato su Transformer è un modello computazionale che, data una sequenza di token estratti da un vocabolario finito, calcola una distribuzione di probabilità del token successivo condizionata su tale sequenza; quindi, secondo una certa strategia di decodifica, seleziona un elemento del vocabolario, lo aggiunge alla sequenza iniziale e procede iterativamente generando nuovi token, finché si ferma. Questa descrizione è corretta, ma dire una cosa vera non è equivale a dire una cosa pertinente. La descrizione di basso livello di un sistema artificiale non esaurisce le proprietà che il sistema esibisce al livello del comportamento, esattamente come la descrizione di un cervello in termini di potenziali d’azione e scariche neurali, per quanto corretta, non esaurisce ciò che diciamo quando diciamo che una persona comprende una frase.
L’occasione per la stesura di questo articolo e tornare sulla questione di quale sia la natura degli LLM, è la pubblicazione, quasi simultanea e su sedi autorevoli, di due lavori che muovono nella stessa direzione. Il primo, Whither symbols in the era of advanced neural networks?, di Thomas L. Griffiths, Brenden M. Lake, R. Thomas McCoy, Ellie Pavlick e Taylor W. Webb, è apparso su Trends in Cognitive Sciences (Griffiths et al. 2026). Il secondo, How Linguistics Learned to Stop Worrying and Love the Language Models, di Richard Futrell e Kyle Mahowald, è in corso di pubblicazione sulla prestigiosa Behavioral and Brain Sciences (Futrell e Mahowald 2025). I due articoli affrontano problemi diversi in relazione agli LLM: l’uno lo statuto della nozione di simbolo della cognizione, l’altro il rapporto tra teoria linguistica e LLM. Ma condividono la stessa mossa metateorica, e il fatto che due prospettive disciplinari distinte, ancorché correlate, partendo da questioni distinte, convergano sulla medesima posizione è, a mio avviso, il dato che più merita attenzione.
2. Il tramonto del rappresentazionalismo simbolico
L’articolo di Griffiths e colleghi affronta in modo diretto un tema che verte su uno dei fondamenti centrali delle teorie della mente (da non confondere qui con la nozione di teoria della mente della psicologia cognitiva, che consiste nell’assumere che un agente cognitivo umano debba avere una teoria implicita della mente degli altri agenti che gli permetta di fare previsioni sul loro comportamento, tutto sommato un concetto che la teoria dei sistemi intenzionali di Dennett (1971) aveva già ampiamente caratterizzato in termini concettuali nei primi anni Settanta). Un fondamento che ha giocato un ruolo centrale sia nella filosofia sia nelle scienze cognitive, sia, infine, nell’IA forte classica della seconda metà del secolo scorso: la tesi che il pensiero corrisponda all’elaborazione di informazione espressa in simboli discreti, le rappresentazioni, in base a un insieme finito di regole esplicite di tipo fondamentalmente logico o quasi-logico. In filosofia, questa idea è nota come teoria rappresentazionale della mente, ma occorre fare attenzione al senso di rappresentazione, che qui viene usato appunto come un’unità discreta individuabile a livello di type. Su come queste rappresentazioni si dovessero implementare a livello di token iniziavano i dolori filosofici; e su come fossero dotate di un significato iniziava tutta un’altra serie di dolori filosofici. La formulazione filosofica più avanzata di questa tesi è la teoria del linguaggio del pensiero di Fodor (1975), secondo cui esiste un vero e proprio linguaggio mentale, il mentalese, composto di simboli e di regole sintattiche, in cui vengono codificati i contenuti dei pensieri. Capire una frase in linguaggio naturale significa riuscire a tradurla in mentalese, ossia attivare i corrispondenti simboli interni dell’enunciato linguistico (in realtà Fodor negli anni 80 e 90 assegnava a una qualche versione di mentalese ruoli anche nella percezione, in generale quasi tutti i processi cognitivi)
Questa idea, come detto, non è rimasta confinata alla speculazione filosofica. Tra gli anni Sessanta e gli anni Novanta, la ricerca in IA classica ne ha sviluppato diverse versioni operazionali, elaborando numerosi formalismi “semantici” che permettessero ai calcolatori di manipolare concetti, comprendere e generare frasi in linguaggio naturale, ed eseguire inferenze. Il primo approccio di questo genere furono le reti semantiche di Ross Quillian (1968), che ipotizzavano un sistema di elaborazione semantica basato su unità atomiche concettuali come nodi di una rete di relazioni associative orizzontali. Una struttura più gerarchica e tipizzata fu introdotta delle semantiche componenziali di Katz e dello stesso Fodor (Katz e Fodor 1963), che in quegli anni era ancora un linguista più che un filosofo in senso stretto. Quando ci si rese conto che una semantica componenziale rigida non poteva rendere conto del funzionamento reale del linguaggio, e dei giudizi percettivi, molti importanti studiosi avanzarono proposte per rendere più complesse e flessibili queste forme di semantica computazionale. Ne sono esempi notissimi, le nozioni di frame, proposta da Minsky (1974), e quella di script, formulata da Schank (Schank e Abelson 1977): la semantica degli script di Schank, in particolare, doveva spiegare come sia possibile comprendere un testo o un enunciato che narra una situazione anche quando è fortemente ellittico. Da qui si arriva a formulazioni via via più complesse e rigorose, come la semantica formale di Montague (1973) o la semantica dei casi di Fillmore (1968), che pur non essendo semantiche computazionali in senso stretto cercavano comunque di costruire frammenti di semantica dei linguaggi naturali computazionalmente trattabili.
I sostenitori del rappresentazionalismo simbolico, ovviamente, hanno da sempre criticato ferocemente gli approcci teorici e ingegneristici che esploravano possibilità alternative, in particolare quelli basati sulla nozione di rete neurale, sin dai tempi della critica formulata da Minsky e Papert alle capacità dei Perceptron di Rosenblatt (Minsky e Papert 1969), proprio perché negavano la centralità di simboli e regole formali nelle teorie cognitive, e nella loro modellizzazione computazionale. Ma avevano buone ragioni empiriche a loro sostegno, poiché le reti neurali, non potevano esibire quelle proprietà di alto livello comunemente considerate fondamentali per la cognizione umana, e in particolare per il linguaggio che ne costituisce il nucleo centrale: composizionalità, produttività, e quella che gli autori del lavoro che sto commentando scelgono di chiamare dotazione di bias induttivi, un termine tecnico che viene dalla teoria matematica del machine learning, e che grossomodo si riferisce alle assunzioni o conoscenze tacite a priori che spiegano perché noi umani siamo così bravi a imparare velocemente compiti complessi (trasformando di fatto i processi induttivi in processi deduttivi). L’argomento di Chomsky sulla povertà dello stimolo, usato dal grande linguista sessant’anni fa contro Skinner (1959) e tre anni fa contro gli LLM, si può considerare un argomento sui bias induttivi, che nel suo caso sono la presenza di una grammatica innata.
L’attacco teorico più radicale al connessionismo (come fu ribattezzato l’approccio neurale rinascente negli anni Ottanta. Cfr. Rumelhart e McClelland (1986) venne da un famoso articolo scritto proprio da Jerry Fodor insieme a Zenon Pylyshyn (1988), dal titolo Connectionism and cognitive architecture: a critical analysis. Il punto cardine della critica era proprio la nozione di composizionalità: un sistema è composizionale quando il significato di un’espressione complessa è funzione del significato dei suoi costituenti e del modo in cui sono combinati: chi capisce «il cane insegue il gatto» capisce anche «il gatto insegue il cane», perché padroneggia gli elementi atomici del linguaggio e le regole con cui si combinano (c’è molto di più nella composizionalità, che ha una tradizione filosofica che risale a Frege, e innerva tutto il logicismo vero-funzionalista dele primo novecento). La produttività è il volto generativo della stessa proprietà, la capacità di produrre e interpretare un numero illimitato di espressioni nuove. Per decenni si è ritenuto che la composizionalità fosse una solida prova a favore di un’architettura simbolica della mente, perché come dicevano i due campioni del simbolismo, una mente non può essere frammentaria, non può avere quella che chiamarono una piecemeal cognition. I sistemi simbolici sono composizionali per costruzione, mentre le reti neurali non sembravano in grado in alcun modo di mostrare quella proprietà così dirimente; dunque, non giocavano alcun ruolo in una teoria generale della cognizione.
Ma con lo sviluppo dei modelli linguistici contemporanei la premessa empirica di questa inferenza, non tiene più e dunque non ci sono ragioni per sostenere la conseguenza: questo è l’argomento centrale del paper di Griffith e altri. Le reti neurali artificiali esibiscono un comportamento linguistico composizionale e produttivo, intanto perché conversano senza problemi e possono persino inventare parole e secondo alcuni stabilire nuovi riferimenti (Lederman e Mahowald 2024); e lo esibiscono senza che le si sia dotate strutturalmente di un’architettura simbolica esplicita: dunque, non c’è più alcuna necessità di considerare tale architettura come una caratteristica immanente dei processi cerebrali. L’argomento non intende dimostrare che la mente umana non effettui processi simbolici regolari in assoluto (è banalmente evidente il contrario), e richiede dunque che si spieghi da dove e come questi possano nascere o emergere. Una versione di tale spiegazione potrebbe essere quella di sostenere che le reti neurali implementino al loro interno un sistema simbolico, magari in forma distribuita e non evidente: in fondo Fodor e Pylyshyn ammettevano il connessionismo proprio a questa condizione, come teoria dell’implementazione di un’architettura che resta classica al livello cognitivo. È una tesi sostenuta ad esempio già da Smolensky (1988), che rispondendo a Fodor e Pylyshyn, aveva mostrato come un sistema connessionista potesse dar luogo, a un livello superiore di descrizione, a regolarità comportamentali descrivibili da regole senza contenere regole come oggetti espliciti. Una spiegazione di carattere più marcatamente eliminativista è quella che i processi regolari siano solo artifici esplicativi, entità teoriche, che nella realtà sono solo approssimati da una congerie di processi intrinsecamente non simbolici.
Nel paper Griffith et al., adottando una distinzione che riprende quella proposta a suo tempo da David Marr (1982) tra il livello computazionale, la specifica del problema, il livello algoritmico, il modo in cui il problema viene funzionalmente risolto, e il livello della implementazione fisica, sostengono che la prima ipotesi potrebbe riscattare il ruolo dell’elaborazione simbolica che avrebbe un ruolo in tutte e tre i livelli. Io credo che questa conclusione conceda troppo, per tre ragioni. In primo luogo, anche se fosse vero che le reti istanzino processi simbolici, questi sarebbero comunque un prodotto emergente del sub-simbolico che mantiene il ruolo di spiegazione di ultima istanza del mentale. In secondo luogo, la tripartizione di Marr si colloca allivello epistemologico, e non a quello ontologico. Infine, va considerato che le reti neurali che esibiscono queste capacità, sia quelle naturali sia quelle artificiali, sono addestrate su dati che contengono sistemi simbolici, cioè su enunciati e testi linguistici, e i testi sono il prodotto di una cultura che ha già costruito simboli, grammatiche, logiche. Possiamo da questo punto di vista considerare, come suggerisce Dennett (2006), che l’elaborazione simbolica da questo punto di vista è una capacità che si è evoluta culturalmente e si è installata nel cervello umano, senza cambiarne la struttura e i processi funzionali fondamentali.
In effetti, gli argomenti a sostegno di un superamento delle teorie rappresentazionali classiche del mentale non si esauriscono a quelli formulati dall’articolo di Griffith et al. Ben prima che i modelli neurali si dimostrassero empiricamente una più che solida alternativa, i sostenitori delle teorie rappresentazionali e logiciste della mente, si sono scontrati con grandi difficoltà, sia al livello teorico e filosofico, sia a livello empirico con la crisi del programma della IA classica forte, sia al livello della plausibilità biologica. Iniziamo dalle prime: la più nota e ampiamente discussa è il cosiddetto frame problem, che ho già trattato qualche tempo fa in un articolo pubblicato sul blog della Società Internazionale per l’Etica e la Politica dell’Intelligenza Artificiale, al quale rimando anche per ulteriori riferimenti bibliografico (Ciotti 2026). Vale la pena richiamarne la sostanza, perché mostra che la crisi del simbolismo e del logicismo ha ragioni intrinseche: un sistema che rappresenta il mondo come un insieme di asserzioni esplicite, e che ragiona applicando regole di inferenza, deve a ogni azione aggiornare la propria base di conoscenza, sapere che cosa cambia e, soprattutto, che cosa non cambia; ma ciò che non cambia è, in linea di principio infinito. Un sistema formale artificiale basato su un insieme finito di assiomi e di regole sarebbe dunque sospeso in una catena di inferenze che gli impedirebbero di capire e fare alcunché, in un ambiente reale, mentre è evidente che un agente naturale sa, senza applicare alcun calcolo logico, che spostare una tazza non altera né il colore delle pareti né la capitale della Francia.
Altrettanto se non più cruciale è il problema del regresso ad infinutum in cui incorrono le semantiche formali internaliste che, come abbiamo visto, sono una conseguenza delle teorie rappresentazionali: se il significato del linguaggio verbale esterno è un linguaggio formale interno, cosa da significato alle formule di questo metalinguaggio? Questa difficoltà è il punto di aggancio del notorio argomento della stanza cinese di Searle (1980), con cui il filosofo statunitense intendeva confutare la possibilità stessa di una teoria di tipo computazionale e funzionalista della mente; un decennio più tardi ha dato vita al dibattito sulla questione del symbol grounding formulata da Harnad (1990), che non ha trovato nessuna soluzione soddisfacente che fosse pienamente compatibile con le teorie rappresentazionali, ma che non possiamo esaminare in dettaglio in questa sede.
Le difficoltà teoriche cui abbiamo accennato, sul piano empirico si riflettevano nel fallimento di ogni tentativo di creare modelli algoritmici classici di processi cognitivi che non fossero ristretti a micromondi o a domini ristretti, in cui si potessero esplicitare a priori tutte le conoscenze, fatti o assiomi, rilevanti e le regole di deduzione logica necessarie a elaborarle. Ma è evidente che questi sistemi esperti, e i loro eredi in qualsiasi forma (knowledge representation, ontologie formali, knowledge graph e così via) poco hanno a che fare con la cognizione. Su questo punto, va detto con onestà, esprimo una posizione controversa, poiché molti esperti di AI oggi sostengono l’efficacia di approcci “neurosimbolici” che uniscano reti neurali e sistemi formali: per quanto mi riguarda il rapporto di quei sistemi con i processi cognitivi naturali mi pare tenue, perché ciò che li rende trattabili e operativamente implementabili, la chiusura del dominio e la località semantica, è esattamente ciò che la cognizione naturale non ha.
La fine della IA classica forte ha avuto come conseguenza che le teorie filosofiche computazionali della mente, dell’intelligenza, della coscienza, sono rimaste nel mercato delle idee come teorie filosofiche, senza la leva empirica che l’IA classica sembrava poter loro offrire. Ma correttamente i filosofi di questo non si sono preoccupati troppo, a parte sporadiche eccezioni, perché il livello della loro riflessione si colloca sul piano concettuale, e un fallimento ingegneristico non confuta una tesi concettuale. L’IA, a sua volta, è divenuta un terreno di ricerca e sviluppo per gli ingegneri informatici e per quel sottoinsieme di linguisti computazionali che non ambiscono a cerare sistemi che abbiano un ruolo esplicativo del linguaggio umano, ma a produrre soluzioni informatiche efficaci e vendibili. Ma, con certa dose di paradosso, proprio la “ricerca e sviluppo” ingegneristica, che aveva assai poco, se non alcun interesse a trovare una soluzione ai misteri della mente, del linguaggio e della coscienza, è riuscita a risolvere, in modo imprevisto, problemi che sessant’anni di ricerca in IA, psicologia cognitiva e filosofia della mente non erano riusciti a risolvere.
3. LLM e il dibattito nella linguistica teorica
Passiamo ora a esaminare il secondo lavoro che ho segnalato, quello di Futrell e Mahowald intitolato How Linguistics Learned to Stop Worrying and Love the Language Models. Inizierei con una considerazione sul giornale in cui questo articolo sta per uscire, perché la cosa ha un suo significato. Behavioral and Brain Sciences, BBS, è la più importante e prestigiosa rivista di scienze cognitive del mondo, l’equivalente di Nature per le scienze naturali, fondata da Stevan Harnad nel 1978. Una delle sue particolarità è che, su volontà del fondatore, che l’ha diretta per venticinque anni, essa adotta da tempo un modello di open peer review per gli articoli che propongono idee particolarmente innovative e/o controverse: questi articoli, denominati “target”, vengono prepubblicati online e sottoposti alla discussione aperta della comunità scientifica di riferimento, mediante la redazione di commenti pubblici, e alla fine della discussione, se il target article non viene uniformemente rifiutato dalla comunità, viene pubblicato insieme ai commenti su un numero ufficiale della rivista. In questo modo un lavoro diventa subito un motore di discussione e di avanzamento della conoscenza. Che il corposo lavoro di Futrell e Mahowald (sono quaranta pagine di testo e altre quaranta di bibliografia) che ha lo scopo di mostrare come gli LLM abbiano una ineludibile rilevanza teorica ed empirica per la ricerca linguistica, sia stato selezionato da una rivista così prestigiosa, e da un comitato scientifico di quel profilo, è di per sé un indizio.
In realtà già da diversi anni linguisti teorici come Steven Piantadosi (2024) e Edward Gibson (in particolare per la sua posizione empirista e per i suoi studi sulla dependency syntax. Cfr. 2025), e molti altri inclusi i due autori del paper, hanno sostenuto che gli LLM, proprio in virtù della loro straordinaria e innegabile efficacia comportamentale, hanno una rilevanza teorica sul funzionamento del linguaggio. Queste posizioni hanno ovviamente creato reazioni aspre, specialmente tra i linguisti di scuola chomskiana, a partire da Chomsky stesso (2023), certamente il più importante e influente linguista teorico del Novecento. In effetti la teoria chomskiana (anche se va riconosciuto che ve ne sono molte versioni e che lo stesso Chomsky ha cambiato ripetutamente parere su aspetti anche molto importanti della sua concezione del linguaggio) ha tra i suoi pilastri la netta separazione tra sintassi e semantica, l’idea di grammatica come programma deterministico o sistema a regole di produzione, la nozione di composizionalità sintattica, la tesi dell’innatismo della competenza grammaticale: tutte queste idee sono inconciliabili con il modo in cui gli LLM elaborano e comprendono enunciati linguistici poiché sono una confutazione dell’idea che il linguaggio possa essere determinato e appreso da un parlante mediante un processo di natura empirica e statistica.
Ma le remore ad assegnare un interesse teorico agli LLM, nel senso di teoria del linguaggio, non vengono solo dai chomskiani: provengono anche da linguisti di diversa estrazione, persino da eminenti studiosi che hanno lavorato nel campo della linguistica distribuzionale, nella linea inaugurata da Zellig Harris (1954) e J. R. Firth (1957), che è poi l’ispirazione teorica alla base di tutti i contemporanei modelli computazionali del linguaggio basati su embedding vettoriali generati con tecniche di machine learning, dalla “semplice” Latent Semantic Analysis agli attuali Transformer.
Nel loro lungo saggio gli autori sostengono apertamente che i moderni LLM abbiano manifestato una competenza grammaticale non banale, capace di catturare strutture gerarchiche e dipendenze a lunga distanza che si riteneva un tempo inaccessibili ai metodi puramente statistici. Se sistemi privi di vincoli grammaticali predefiniti generalizzano correttamente su fenomeni sintattici complessi l’assunto che l’acquisizione di una simile competenza presupponga una dotazione innata e formale formalmente restrittiva, perde la sua necessità logica. Anche l’argomento della povertà dello stimolo diventa un fatto empirico contingente: per ora gli LLM apprendono da quantità di dati linguistici di ordini di grandezza superiori a quelle cui è esposto un bambino, ma questo non implica che l’apprendimento statistico sia in generale impossibile. Gli LLM sono a loro avviso sistemi fortemente sovra-parametrizzati che apprendono generalizzazioni linguistiche corrette in virtù un soft-bias verso l’assunzione di ipotesi semplificanti, e non grazie a restrizioni formali imposte a priori sullo spazio delle ipotesi. La struttura linguistica, in questo conteso assumo uno statuto teorico descritto dalla nozione dennettiana di real pattern (Dennet 1991): un’astrazione di livello superiore scientificamente legittima perché riduce il carico di lavoro descrittivo necessario a rendere conto di processi di elaborazione altrimenti opachi, e ciò vale con la sia per i sistemi biologici sia per quelli artificiali. Il saggio esamina altri aspetti più tecnici, ma per gli scopi di questo articolo mi pare rilevante menzionare le conclusioni cui giungono i due autori: gli LLM non rimpiazzano la teoria linguistica come impresa scientifica, e non costituiscono di per sé una teoria del linguaggio; piuttosto funzionano come sistemi modello per testare le previsioni di approcci linguistico-cognitivi di tipo funzionalista e per le teorie del linguaggio fondate sull’uso, concezioni gradualiste e probabilistiche della struttura linguistica che in passato risultavano difficili da formalizzare in forma operativa. La linguistica trova così l’occasione di interrogarsi nuovamente sulle ragioni profonde della struttura del linguaggio umano all’interno di un programma di ricerca multidisciplinare in cui modellizzazione computazionale, neuroscienze e teoria linguistica convergono.
4. Alcune riflessioni conclusive
Alla luce della discussione di questi due importanti lavori, credo di poter avanzare questa tesi: per molti anni la filosofia, la linguistica, la psicologia teorica e sperimentale, poi le scienze cognitive, e l’IA classica che cercava di tradurre tutto in programmi reali, hanno scambiato un effetto per una causa. Il ragionamento, in forma più o meno esplicita, è stato questo: siccome le facoltà cognitive che consideriamo nobili erano caratterizzabili come sistemi simbolici formali, allora dovevano essere generate da sistemi simbolici formali; dunque, la mente era un sistema simbolico formale. Siccome il linguaggio opera su simboli discreti e segue regole grammaticali, almeno in parte consistente, allora il cervello doveva avere al suo interno dei sistemi che operano su simboli e regole, ma in senso stretto, letterale. Siccome alcuni linguaggi, o alcune regioni del linguaggio, operano come la logica e la matematica, e la logica ci fornisce un modo efficace per preservare la verità in catene di derivazioni formali, allora il linguaggio in generale è un gioco formale e il significato è la verità. Oppure non direttamente la verità, ma un altro sistema di rappresentazioni formali, e poi un altro ancora: in sintesi, la rappresentazione del significato divenne il significato.
Si potrebbe obiettare che il capovolgimento che propongo è eccessivo: se le regole sono solo una descrizione astratta e parziale, perché il linguaggio le segue così bene? La risposta, come suggeriscono Futrell e Mahowald, è che la regolarità grammaticale è essa stessa un effetto, non una premessa. Il linguaggio precede ogni grammatica esplicita; le regolarità che la grammatica codifica emergono dall’uso, dall’interazione ripetuta di una comunità di parlanti, e si stratificano storicamente. È esattamente l’intuizione della linguistica distribuzionale di Harris (1954) e Firth (1957), e, su un altro versante, della concezione wittgensteiniana del significato come uso (Wittgenstein 1953). La grammatica e la logica non esistono in natura come fondamenti del linguaggio: sono costruzioni secondarie, derivate dall’uso, consolidate via via come strumenti di razionalizzazione. Il modello linguistico, che apprende il linguaggio dalla pura esposizione a grandi quantità di testo senza che gli sia stata fornita alcuna regola grammaticale esplicita e alcun modello semantico, è l’evidenza per questa ipotesi: mostra che è possibile acquisire le regolarità del linguaggio senza partire dalle regole, e dunque che le regole possono essere un esito dell’apprendimento anziché il suo presupposto. Wittgenstein, del resto, si era reso conto che la concezione formale non funzionava; ma in quegli stessi anni i computer basati sul modello di Turing e di von Neumann divennero un «correlato oggettivo» così potente che chi credeva che la mente fosse un fenomeno naturale, e dunque spiegabile con leggi e teorie che dovevano ricadere tra le leggi e le teorie naturali, fu irresistibilmente attratto da quel modello e lo prese sul serio, quasi alla lettera. Certo, le evidenze sperimentali fornite dallo sviluppo delle neuroscienze non offrivano molte speranze di trovare motori inferenziali e memoria discreta indirizzabile nei cervelli naturali; ma si poteva considerare questa difficoltà solo un problema empirico, o un errore di prospettiva temporaneo, o magari un problema misterioso, una di quelle cose che non ci è dato sapere anche se perfettamente iscritte nel regno dei fatti naturali.
L’avvento dei modelli neurali consente oggi di costruire una visione radicalmente alternativa del linguaggio e della cognizione in generale. Ovviamente questo non significa che i modelli linguistici rendano del tutto inutili e superate le vaste conoscenze e osservazioni accumulate in decenni sui fenomeni morfosintattici, semantici e pragmatici, sia in chiave sincronica sia in chiave diacronica. Teorie e fatti linguistici studiati per decenni sono un patrimonio di conoscenza che pone questioni serie e ineludibili sulla natura e sul funzionamento del linguaggio. Ma occorre riconoscere che se un sistema artificiale che è stato progettato e realizzato senza usare in modo esplicito nessuna di quelle teorie, a parte ovviamente l’idea generale alla base della linguistica distribuzionale, nessuna regola grammaticale locale o globale, nessun modello semantico tra i tanti che sono stati proposti nel tempo da linguisti formali, psicolinguisti, linguisti cognitivi, linguisti computazionali, ebbene se tale sistema artificiale esibisce una performance linguistica di livello indistinguibile da quella umana, come è ormai evidente in moltissime lingue storiche naturali, allora tale sistema con molte probabilità ha acquisito una competenza linguistica che è ingiustificato reputare non genuina.
La ricerca scientifica su linguaggio e sulla cognizione, e quella parte della filosofia che intende accompagnarla nel millenario tentativo di capire la natura, l’universo e noi stessi, sono chiamate a superare, come molte volte è avvenuto, teorie e convinzioni con cui si sono intrattenute per decenni. Che questo fatto sia arrivato dall’ingegneria e non dalla teoria, e per ragioni che con la teoria avevano poco a che fare, è un buon promemoria di quanto sia rischioso decidere a priori da quale direzione la conoscenza abbia il permesso di arrivare. Nonostante le allucinazioni e i pappagalli, e le allucinazioni dei pappagalli.
Riferimenti bibliografici
Chomsky, Noam. 1959. «A Review of B. F. Skinner’s Verbal Behavior». Language 35 (1): 26-58. https://doi.org/10.2307/411334
Chomsky, Noam, Ian Roberts, e Jeffrey Watumull. 2023. «Noam Chomsky: The False Promise of ChatGPT». Opinion. The New York Times., 8 marzo 2023.
Ciotti, Fabio. 2026. «Claude Code, il frame problem e perché l’IA neurosimbolica è un miraggio». SEPAI International, 24 aprile 2026. https://www.sepai-international.org/claude-code-il-frame-problem-e-perche-lia-neurosimbolica-e-un-miraggio/.
Dennett, Daniel C. 1971. «Intentional Systems». The Journal of Philosophy 68 (4): 87-106. https://doi.org/10.2307/2025382
Dennett, Daniel C. 1991. «Real Patterns». The Journal of Philosophy 88 (1): 27-51
Dennett, Daniel C. 1994. «The Practical Requirements for Making a Conscious Robot». Philosophical Transactions of the Royal Society A 349 (1689): 133–146. https://doi.org/10.1098/rsta.1994.0118
Dennett, Daniel. 2006. La mente e le menti: verso una comprensione della coscienza. Milano: Rizzoli.
Fillmore, Charles J. 1968. «The Case for Case». In Universals in Linguistic Theory, a cura di Emmon Bach e Robert T. Harms, 1-88. New York: Holt, Rinehart and Winston.
Firth, John Rupert. 1957. «A Synopsis of Linguistic Theory, 1930-1955». In Studies in Linguistic Analysis, 1-32. Oxford: Philological Society.
Fodor, Jerry A. 1975. The Language of Thought. New York: Thomas Y. Crowell.
Fodor, Jerry A., e Zenon W. Pylyshyn. 1988. «Connectionism and Cognitive Architecture: A Critical Analysis». Cognition 28 (1-2): 3-71. https://doi.org/10.1016/0010-0277(88)90031-5
Futrell, Richard, e Kyle Mahowald. 2025. «How Linguistics Learned to Stop Worrying and Love the Language Models». Behavioral and Brain Sciences, accepted manuscript, 1-98. https://doi.org/10.1017/S0140525X2510112X
Floridi, Luciano. 2025. La differenza fondamentale. Artificial Agency: una nuova filosofia dell’intelligenza artificiale. Milano: Mondadori.
Gibson, Edward A. F. Syntax: A Cognitive Approach. The MIT Press, 2025. https://doi.org/10.7551/mitpress/15535.001.0001.
Griffiths, Thomas L., Brenden M. Lake, R. Thomas McCoy, Ellie Pavlick, e Taylor W. Webb. 2026. «Whither symbols in the era of advanced neural networks?». Trends in Cognitive Sciences (0). https://doi.org/10.1016/j.tics.2026.02.003. Preprint arXiv: https://arxiv.org/abs/2508.05776
Harnad, Stevan. 1990. «The Symbol Grounding Problem». Physica D: Nonlinear Phenomena 42 (1-3): 335-346. https://doi.org/10.1016/0167-2789(90)90087-6
Harris, Zellig S. 1954. «Distributional Structure». Word 10 (2-3): 146-162. https://doi.org/10.1080/00437956.1954.11659520
Katz, Jerrold J., e Jerry A. Fodor. 1963. «The Structure of a Semantic Theory». Language 39 (2): 170-210. https://doi.org/10.2307/411200
Lederman, Harvey, e Kyle Mahowald. 2024. «Are Language Models More Like Libraries or Like Librarians? Bibliotechnism, the Novel Reference Problem, and the Attitudes of LLMs». arXiv:2401.04854. Versione 2. Preprint, arXiv, 15 febbraio 2024. https://doi.org/10.48550/arXiv.2401.04854.
Marr, David. 1982. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. New York: W. H. Freeman and Company.
Minsky, Marvin. 1974. «A Framework for Representing Knowledge». MIT-AI Laboratory Memo 306. Successivamente pubblicato in The Psychology of Computer Vision, a cura di Patrick H. Winston, 211-277. New York: McGraw-Hill, 1975. https://dspace.mit.edu/handle/1721.1/6089
Minsky, Marvin, e Seymour Papert. 1969. Perceptrons: An Introduction to Computational Geometry. Cambridge, MA: MIT Press.
Montague, Richard. 1973. «The Proper Treatment of Quantification in Ordinary English». In Approaches to Natural Language, a cura di Jaakko Hintikka, Julius Moravcsik, and Patrick Suppes, 221–242. Dordrecht: Reidel. https://doi.org/10.1007/978-94-010-2506-5_10
Piantadosi, Steven T. 2024. «Modern Language Models Refute Chomsky’s Approach to Language». In From Fieldwork to Linguistic Theory: A Tribute to Dan Everett, a cura di Edward Gibson e Moshe Poliak, 353-414. Berlin: Language Science Press. https://doi.org/10.5281/zenodo.12665933
Quillian, Ross. 1968. «Semantic Memory». In Semantic Information Processing, a cura di Marvin Minsky, 227-270. Cambridge, MA: MIT Press.
Rumelhart, David E., e James L. McClelland, eds. 1986. n Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, MA: MIT Press.
Schank, Roger C., e Robert P. Abelson. 1977. Scripts, Plans, Goals, and Understanding: An Inquiry into Human Knowledge Structures. Hillsdale, NJ: Lawrence Erlbaum.
Searle, John R. 1980. «Minds, Brains, and Programs». Behavioral and Brain Sciences 3 (3): 417-457. https://doi.org/10.1017/S0140525X00005756
Smolensky, Paul. 1988. «On the Proper Treatment of Connectionism». Behavioral and Brain Sciences 11 (1): 1-23. https://doi.org/10.1017/S0140525X00052432
Turing, Alan M. 1950. «Computing Machinery and Intelligence». Mind 59 (236): 433-460. https://doi.org/10.1093/mind/LIX.236.433
Wittgenstein, Ludwig. 1953. Philosophical Investigations. Edited by G. E. M. Anscombe and Rush Rhees. Translated by G. E. M. Anscombe. Oxford: Blackwell.


