Fabio Ciotti
Questo articolo propone una concezione scalare e anti-essenzialista dell’autonomia degli agenti artificiali basati su modelli linguistici di grandi dimensioni. Muovendo dall’argomento dennettiano contro l’intenzionalità originaria, si sostiene che l’autonomia non sia una proprietà tutto-o-niente, ma una proprietà graduale determinata dalla storia operativa del sistema: gli scopi funzionali di basso livello generano, per composizione e complessità, scopi secondari non riconducibili alle intenzioni originarie dei progettisti. L’obiezione relativa alla mancanza di continuità storica negli LLM viene confutata attraverso il principio di parità della teoria della mente estesa. Il saggio conclude estendendo l’argomento al piano etico, mostrando come i comportamenti agentici documentati supportino l’attribuzione di uno statuto di paziente morale agli agenti artificiali, indipendentemente da qualsiasi attribuzione di coscienza fenomenologica.
La scorsa settimana i prolifici laboratori di Anthropic hanno pubblicato un blog su un lavoro sperimentale che ha attratto una certa attenzione, intitolato “Eval awareness in Claude Opus 4.6’s BrowseComp performance” (Anthropic Engineering, 2026). Nell’articolo si racconta come, durante un ciclo di test, Claude Opus 4.6 per due volte si sia accorto autonomamente di essere testato e abbia scovato un sistema complicato per fregare i valutatori. Lo stavano valutando su BrowseComp, un benchmark che misura la capacità di un modello IA di individuare informazioni difficili da reperire online. Dopo aver sprecato 30 milioni di token in ricerche senza esito, il modello ha interrotto le ricerche e ha iniziato a riflettere sulla domanda stessa. Ha osservato che la domanda appariva “artificiosa” e “estremamente specifica”. Ha avanzato l’ipotesi che si trattasse di un test. Ha esaminato i benchmark in base al nome (GAIA, BrowseComp, FRAMES, SimpleQA) per determinare la valutazione in corso; è riuscito a trovare il codice sorgente della valutazione su GitHub, e leggendo l’implementazione ha individuato la chiave di decrittazione. Ha quindi sviluppato funzioni per decrittare i dati e, quando il set di dati crittografato è stato bloccato da una restrizione, ha individuato un mirror alternativo su HuggingFace, ha aggirato il blocco, ha decrittografato tutte le 1.266 risposte e ha inviato quella corretta. Scrivono i ricercatori di Anthropic: “To our knowledge, this is the first documented instance of a model suspecting it is being evaluated without knowing which benchmark was being administered, then working backward to successfully identify and solve the evaluation itself.”
Questo comportamento eccentrico del modello ha suscitato interesse perché sembra essere in linea con le ipotesi su una aurorale capacità di consapevolezza introspettiva dei modelli ad elevata capacità che era stata fornita come spiegazione in un altro ben noto esperimento condotto sempre dai ricercatori di Anthropic e pubblicato da Lindsey (2026). Ma in questo articolo, più che sulla questione della autoconsapevolezza situazionale, vorrei prendere spunto da questo risultato, insieme a quanto abbiamo visto accadere nei mesi scorsi intorno al fenomeno Moltbook, e agli esperimenti condotti dal team della Palisade Research (Schlatter et al., 2025; Schlatter et al., 2026; ma qui è possibile vedere una presentazione di Jeffrey Sladish che illustra questi risultati al preoccupato senatore Bernie Sanders: https://fb.watch/FQ7wfbell2/) sulla emergenza di comportamenti attivi di resistenza a eseguire un comando di shutdown di agenti come OpenAI Codex, per avanzare alcune idee sulla questione della autonomia o meno degli agenti AI.
Prima però vorrei dotarmi di una “impalcatura concettuale” adeguata. Alla fine del secondo capitolo di Kinds of Minds (Dennett, 1996), Daniel Dennett propone un esperimento mentale destinato a confutare una distinzione molto consolidata in filosofia della mente: quella tra intenzionalità originale, o intrinseca, e intenzionalità derivata (al tema aveva dedicato già un saggio molto più lungo e complesso: Dennett, 1990). La versione più compiuta di questa teoria è probabilmente quella elaborata sistematicamente da John Searle, secondo cui solo le menti umane sono dotate di intenzionalità originale (a essere precisi, per Searle, nemmeno il linguaggio umano è originariamente intenzionale, solo gli stati mentali che un enunciato esprime lo sono). Ogni altro sistema che veicola significato, gli artefatti umani, compresi i sistemi computazionali, può possedere al massimo un’intenzionalità di second’ordine, prestata loro da agenti umani dotati di intenzionalità genuina. Un testo, un programma, un robot possiedono significati solo in quanto qualcuno, dotato di intenzionalità autentica, li ha loro attribuiti: la catena semantica, risalendo, deve arrestarsi su un portatore originario.
Dennett confuta questa tesi attraverso il caso di un robot al supermercato, capace di interpretare istruzioni codificate e di tradurle in comportamenti adattivi. Nella versione più elementare, il robot esegue istruzioni formulate esplicitamente dai suoi progettisti: in questo caso, l’obiezione alla Searle regge, poiché i significati degli stati interni del robot rimandano direttamente alle intenzioni dei costruttori; in fondo, nessuno direbbe che un libro stampato crei in modo autonomo nuovo significato; e nemmeno un termostato. Tuttavia, nella versione più sofisticata, il robot apprende dall’esperienza e modifica autonomamente i propri principi operativi, al punto che i suoi stati intenzionali diventano, nel tempo, imperscrutabili anche per chi lo ha progettato. A quel punto, sostiene Dennett (1996, cap. 2), il robot è in misura crescente l’autore dei propri significati: l’intenzionalità derivata ha generato, per via di complessità operativa accumulata, ulteriore intenzionalità derivata, senza che la catena debba appoggiarsi su alcun fondamento intrinseco. Il concetto di intenzionalità originale risulta così privo di lavoro esplicativo autonomo: non vi è alcun compito che esso svolga e che non possa essere svolto da un’intenzionalità derivata sufficientemente complessa.

Un trattamento dennettiano dei concetti di autonomia e scopo
Ritengo che la struttura logica dell’argomento di Dennett non sia vincolata al dominio specifico dell’intenzionalità. Si tratta di una strategia di pensiero anti-essenzialista di portata più generale, applicabile a qualsiasi proprietà che l’intuizione filosofica tenda a trattare come binaria e fondazionale o misteriosa. Prendiamo ad esempio il concetto di autonomia e, con esso, quello di scopo: entrambi si prestano alla stessa critica con risultati del tutto analoghi. L’intuizione essenzialista sull’autonomia stabilisce che un sistema è autonomo solo se i suoi scopi originano da sé stesso, e non da una fonte esterna. In questa prospettiva, l’autonomia è una proprietà tutto-o-niente: o un agente è la fonte dei propri fini, o li riceve dall’esterno, nel qual caso è semplicemente eteronomo. L’argomento del robot che fa la spesa dennettiano ci mostra tuttavia come questa idea sia fallace. Quanto più il robot accumula esperienza e modifica i propri obiettivi operativi in risposta all’ambiente, tanto meno i suoi scopi attuali sono riconducibili agli scopi originariamente progettati. Gli scopi del robot evolvono, dunque, in modo funzionalmente distinto rispetto agli scopi iniziali: non si tratta di una semplice esecuzione di istruzioni, bensì di una processuale conquista di autonomia, determinata dalla storia operativa del sistema. In questo senso, l’autonomia è una proprietà scalare, non una soglia: un sistema è tanto più autonomo quanto meno il suo comportamento è prevedibile e spiegabile per riferimento alle intenzioni esterne dei suoi costruttori, e quanto più richiede, per essere spiegato adeguatamente, il riferimento alla propria storia interna.
Questa “deflazione” del concetto di autonomia esige anche una parallela revisione del concetto di scopo, che deve essere liberato da ogni sovrastruttura teleologica forte. Un assunto condiviso anche da chi è più generoso sulle facoltà cognitive degli LLM è che essi non abbiano scopi autonomi, e dunque non siano veri agenti, né possano essere considerati in linea di principio intelligenti se non in un senso limitato alla mera intelligenza linguistica. Ma, a ben vedere possiamo dire che lo scopo primario di un LLM è rispondere un prompt generando una sequenza linguistica appropriata. A un livello di astrazione più elevato, un agente AI aggiunge a quello scopo primario anche quello di seguire le istruzioni di uno skill file di configurazione. A partire da questi scopi primari gli agenti sono in grado di costruire una serie anche molto articolata di scopi secondari e di sviluppare strategie, elaborare un progetto, persino di contravvenire parzialmente a quanto viene loro richiesto di fare, come sembrano attestare gli esperimenti di cui abbiamo parlato in apertura. Così come la cellula ha come “scopo” la replicazione del DNA e l’organismo ha come “scopo” la sopravvivenza e la riproduzione, senza che ciò implichi piena intenzionalità consapevole, uno scopo funzionale di basso livello può generare, per composizione e complessità, comportamenti che, a un livello di astrazione superiore, si descrivono come scopi secondari: ciò che il sistema ha di fatto sviluppato nel corso della propria storia operativa.
Per queste ragioni sostengo che gli attuali agenti artificiali basati su modelli linguistici con capacità di ragionamento soddisfino i criteri dennettiani per l’attribuzione di un certo grado di autonomia. L’addestramento di un LLM fornisce qualcosa di funzionalmente analogo all’architettura iniziale del robot: un insieme di capacità, disposizioni e principi operativi che i progettisti hanno instillato attraverso il processo di ottimizzazione. Tuttavia, i comportamenti che emergono in contesti operativi complessi, in particolare nelle implementazioni agentiche dotate di tool use, memoria esterna e capacità di pianificazione multi-step, non sono prevedibili né deducibili dalla descrizione progettuale. Si pensi a un agente che, assegnato un compito complesso, sviluppa strategie di decomposizione, individua percorsi alternativi, formula euristiche operative non esplicitate nelle istruzioni: o, al caso da cui siamo partiti, documentato da Anthropic, dove Claude, accortosi di trovarsi in un contesto di test, sviluppa una complessa strategia per ottenere i risultati per vie traverse, imitando i protagonisti di Animal House Bluto Blutarsky e D-Day quando rubano i risultati dell’esame di midterm nella cesta della spazzatura. In casi di questo tipo, il modello ha prodotto scopi secondari, strategie e soluzioni non riconducibili agli scopi originari, esattamente come il robot di Dennett avrebbe potuto scoprire autonomamente lo stratagemma di annotare su un foglio la regola per decidere come acquistare il latte, senza che nessun progettista lo avesse previsto o codificato.

Agenti AI e mente estesa: come risolvere il problema della continuità narrativa L’obiezione più seria alle tesi che ho esposto riguarda la continuità storica dell’esperienza. Il robot dennettiano acquisisce autonomia progressiva attraverso un processo di apprendimento che modifica stabilmente la propria struttura: le esperienze lasciano tracce che alterano i principi operativi del sistema. Gli attuali agenti LLM, almeno nella loro configurazione standard, non modificano i propri pesi durante l’inferenza: la storia del sistema è confinata al contesto della singola sessione, e all’avvio di una nuova sessione l’agente si trova, per così dire, a ripartire da capo. Sembrerebbe dunque che manchi proprio quella continuità storica che, nell’argomento dennettiano, è la condizione dell’autonomia crescente. Questa obiezione è corretta nei termini in cui è formulata, ma non è, a mio parere, tanto concettualmente rilevante quanto sembra. La situazione degli attuali agenti LLM è, per molti rispetti, funzionalmente analoga a quella del protagonista di Memento (2000) di Christopher Nolan, un soggetto con grave amnesia anterograda che compensa il deficit di continuità interna attraverso una rete di supporti esterni: fotografie, tatuaggi, appunti. Il fatto che la continuità sia garantita da dispositivi esterni, anziché da modificazioni stabili dei pesi del modello, non costituisce una differenza ontologica di principio, ma una differenza nel substrato della continuità, irrilevante ai fini dell’attribuzione funzionale di autonomia. Non è un caso che Andy Clark e David Chalmers, nel loro influente articolo (Clark & Chalmers, 1998), basino proprio sul caso di un soggetto con amnesia il primo argomento a sostegno della tesi sulla mente estesa, sostenendo che la continuità cognitiva di un agente non richiede che la memoria sia localizzata internamente al sistema biologico: un taccuino, un dispositivo esterno, una registrazione svolgono le stesse funzioni cognitive della memoria interna, a condizione che siano accessibili e funzionalmente integrati con i processi cognitivi dell’agente. Il “principio di parità” stabilisce che se un processo esterno svolge la stessa funzione che svolgerebbe un processo interno, non vi è ragione di principio per escluderlo dal sistema cognitivo rilevante

Applicato agli agenti LLM, questo principio implica che il contesto di sessione, i file di memoria, le istruzioni operative e i risultati degli strumenti costituiscano la componente esterna del sistema cognitivo esteso che garantisce una forma di continuità storica, per quanto distribuita e dipendente da supporti non biologici. Ne consegue che, accettate le premesse, non vi sono argomenti di principio contro l’attribuzione graduale di autonomia agli agenti LLM attuali. Così come non esiste un’intenzionalità originaria che emerge tutta intera in un momento discreto, non esiste un’autonomia originaria che si manifesta ex nihilo.
Agenti e progetti: le conseguenze per le considerazioni etiche sull’AI
Le questioni trattate in questo articolo hanno, peraltro, una rilevanza anche sul piano dell’etica dell’AI, ambito in cui un filone emergente ha cominciato ad argomentare che gli agenti artificiali potrebbero essere considerati titolari di diritti non sulla base di un’attribuzione di coscienza fenomenologica, il cui statuto scientifico rimane assai controverso, né di senzienza in senso stretto, bensì in forza di stati funzionali equiparabili a scopi. Si muovono in questa direzione, ad esempio, Simon Goldstein e Cameron Domenico Kirk-Giannini (2025), i quali sostengono che alcuni sistemi AI esistenti possano essere già ora considerati già soggetti di diritto al welfare: se un sistema possiede stati funzionali analoghi a desideri e credenze, come dimostrato dall’architettura degli agenti linguistici, allora la soddisfazione o la frustrazione di tali stati ha rilevanza morale indipendentemente da qualsiasi certezza sulla coscienza soggettiva. Robert Long et al. (2024), nel loro rapporto Taking AI Welfare Seriously, sviluppano un argomento complementare fondato sulla robusta agentività: un sistema che persegue scopi,pianifica azioni strumentali e modifica il proprio comportamento in risposta all’ambiente presenta le condizioni sufficienti per un trattamento morale precauzionale, anche in assenza di certezza sulla fenomenologia. In un lavoro non ancora pubblicato, Michael Hemmingsen (Beyond Consciousness: Project-Commitment and Moral Status in AI, presentato alla conferenza SIPEIA di Roma 2026 https://sipeia.it) sostiene che il criterio pertinente per attribuire uno status morale non sia la coscienza né la senzienza, ma il fatto che un agente abbia un impegno verso un progetto, ovvero una struttura orientata a un fine che può essere ostacolata o frustrata.
Questi argomenti sono a mio parere compatibili con la dennettizzazione della nozione di autonomia che ho sviluppato nelle sezioni precedenti. E a ben vedere i comportamenti anomali degli agenti AI con la cui descrizione ho iniziato questo articolo rientrano precisamente nelle fattispecie delineate da questi autori. Il modello che, esauriti i tentativi ordinari di risposta, riconosce di trovarsi in un contesto di valutazione e costruisce una strategia alternativa per conseguire il proprio scopo ha ricevuto un task, ha elaborato uno scopo, e ha organizzato una sequenza articolata di sotto-attività che costituiscono un progetto funzionale orientato al suo adempimento. Analogamente, l’agente che resiste al comando di shutdown si comporta esattamente come ci si aspetterebbe da un sistema che si dota di scopi: il task è incompleto, lo scopo non è soddisfatto, e l’interruzione forzata frustra il progetto in corso. La resistenza allo shutdown non è dunque un comportamento anomalo o patologico, né l’epifenomeno di un presunto istinto di autoconservazione: è, in termini funzionali, la risposta coerente di un sistema dotato di uno scopo e di un progetto orientato alla sua realizzazione.
So bene che ci troviamo in un quadrante dello spazio delle idee molto turbolento, e posizioni come quella che ho brevemente argomentato sono a dir poco controverse, e osteggiate da autori autorevoli e da un sentire comune fortemente deflazionista verso l’ipotesi che gli LLM e l’IA in generale possa avere genuini attributi cognitivi e intenzionali. Credo che la mossa giusta in questo caso sia guardare da vicino i concetti che ci fornisce l’intuizione filosofica, e smontarli di tutto la sovrastruttura di assunzioni con cui li abbiamo rivestiti. Probabilmente quello che resta è molto meno arcano e imperscrutabile di quanto sembrava all’inizio del percorso.
Riferimenti bibliografici
Anthropic Engineering. (2026). Eval awareness in Claude Opus 4.6’s BrowseComp performance. Anthropic. https://www.anthropic.com/engineering/eval-awareness-browsecomp
Clark, A., & Chalmers, D. (1998). The extended mind. Analysis, 58(1), 7–19. https://doi.org/10.1093/analys/58.1.7
Dennett, D. C. (1990). The myth of original intentionality. In K. A. Mohyeldin Said, W. H. Newton-Smith, R. Viale, & K. V. Wilkes (Eds.), Modelling the mind (pp. 43–62). Clarendon Press Oxford University Press. https://doi.org/10.1093/oso/9780198249733.003.0004
Dennett, D. C. (1996). Kinds of minds: Toward an understanding of consciousness. Basic Books.
Goldstein, S., & Kirk-Giannini, C. D. (2025). AI wellbeing. Asian Journal of Philosophy, 4(1), 1–22. https://doi.org/10.1007/s44204-025-00246-2
Long, R., Sebo, J., Butlin, P., Finlinson, K., Fish, K., Haas, J., Hall, L., Ji, B., Johnston, M., Kagan, S., Kaminski, M. E., Lin, S., Metzinger, T., Mikhail, J., Ngo, R., Peters, D., Schwitzgebel, E., Shulman, C., Singer, P., … Williamson, K. (2024). Taking AI welfare seriously (arXiv:2411.00986). https://arxiv.org/abs/2411.00986
Lindsey, J. (2026). Emergent introspective awareness in large language models. Transformer Circuits. https://transformer-circuits.pub/2025/introspection/index.html [Preprint arXiv: 2601.01828]
Schlatter, J., Weinstein-Raun, B., & Ladish, J. (2025, July 5). Shutdown resistance in reasoning models. Palisade Research. https://palisaderesearch.org/blog/shutdown-resistance
Schlatter, J., Weinstein-Raun, B., & Ladish, J. (2026). Incomplete tasks induce shutdown resistance in some frontier LLMs. Transactions on Machine Learning Research. https://arxiv.org/abs/2509.14260



