A. Dina
L’industria dell’intelligenza artificiale tende a raccontarsi come una sequenza lineare di breakthrough tecnici, ma la realtà dei laboratori di frontiera è ormai più simile a un negoziato continuo tra statistica, linguaggio e teoria morale. In questo contesto, le figure di Amanda Askell e Iason Gabriel non rappresentano una semplice “contaminazione umanistica” dell’ingegneria, ma due tentativi distinti di trasformare problemi filosofici classici in protocolli operativi per sistemi di machine learning. La differenza rispetto alla tradizione accademica è radicale: non si tratta di interpretare il comportamento umano, ma di codificarne versioni semplificate, verificabili indirettamente attraverso il comportamento dei modelli.
Il lavoro di Askell all’interno di Anthropic si inserisce nel cuore del paradigma dell’“alignment via feedback”, dove il problema non è solo cosa il modello dica, ma quale tipo di preferenze venga incorporato attraverso il processo di addestramento. Il suo contributo filosofico più rilevante si colloca nell’evoluzione della cosiddetta “helpfulness, honesty, harmlessness” come struttura normativa approssimata, un tentativo di tradurre teorie etiche non consequenzialiste in segnali di reward utilizzabili nei modelli linguistici. La complessità non sta nell’enunciare questi principi, ma nel trasformarli in criteri operativi coerenti quando il modello produce risposte che sono simultaneamente plausibili, persuasive e potenzialmente ingannevoli.
Askell lavora su un punto specifico e sottovalutato: la differenza tra verità epistemica e verità comportamentale nei modelli. Un sistema può generare affermazioni corrette nella maggior parte dei casi, ma fallire in modo sistemico quando deve scegliere tra accuratezza e coerenza conversazionale. In termini filosofici, questo introduce una tensione tra deontologia e pragmatismo linguistico, dove il modello non “crede” a ciò che dice ma ottimizza una funzione di plausibilità sociale. Da qui derivano i suoi contributi sul concetto di “honesty as a behavioral constraint”, che non è una virtù nel senso tradizionale, ma una proprietà emergente di un sistema addestrato su feedback umano aggregato, spesso incoerente.

Il lavoro di Iason Gabriel, invece, si colloca su un livello più strutturale e politico. All’interno di Google DeepMind, Gabriel ha sviluppato una linea di ricerca che affronta il problema della “value alignment” non come semplice ottimizzazione delle preferenze umane, ma come questione di pluralismo morale. Il punto di partenza è una critica implicita all’idea che esista una funzione di utilità umana unica, stabile e aggregabile. Le società reali, osserva implicitamente il suo framework, non possiedono valori coerenti ma insiemi conflittuali di preferenze, spesso irriducibili a una media statistica.
In questo contesto si inserisce il suo lavoro sull’“idealized preference theory”, che tenta di risolvere un problema centrale: come distinguere tra ciò che le persone desiderano in condizioni informate e riflessive e ciò che esprimono in condizioni reali di bias, disinformazione o contesto limitato. Tradotto nell’architettura dei modelli, questo implica la costruzione di sistemi che non si limitano a imitare preferenze osservate, ma che cercano di inferire preferenze “migliori” secondo criteri normativi espliciti. È un passaggio delicato, perché introduce una forma di paternalismo algoritmico mascherato da ottimizzazione.
Gabriel si muove anche su un terreno ancora più controverso, quello della “pluralistic alignment”, dove l’obiettivo non è convergere su un unico sistema di valori, ma preservare una distribuzione di visioni morali all’interno del comportamento del modello. In termini pratici, questo significa progettare sistemi che non rispondono con una singola voce normativa, ma che modulano le risposte in base a contesti culturali e morali differenti. È un’idea che rompe con l’aspirazione classica dell’ingegneria software, cioè la determinazione, e introduce una forma di ambiguità controllata come proprietà desiderabile del sistema.
Il punto di contatto tra Askell e Gabriel non è tanto metodologico quanto epistemico. Entrambi lavorano sull’assunto che i modelli linguistici non siano semplici strumenti di predizione, ma sistemi che già incorporano una teoria implicita del mondo umano. Askell tende a tradurre questa intuizione in meccanismi di training più robusti rispetto alle incoerenze del feedback umano, mentre Gabriel la espande in una riflessione politica su quale tipo di società venga riflessa, e potenzialmente amplificata, dai modelli stessi.
Nel caso di Askell, la filosofia diventa un linguaggio di ingegneria del comportamento: concetti come sincerità, utilità e innocuità vengono trasformati in proxy misurabili attraverso la valutazione umana iterativa. Nel caso di Gabriel, la filosofia si avvicina invece alla teoria istituzionale, dove i modelli diventano attori quasi regolatori che mediano tra sistemi di valori in competizione. In entrambi i casi, il risultato è lo stesso ma ottenuto da direzioni opposte: la dissoluzione della distinzione tra etica e ottimizzazione.
La conseguenza industriale di questo lavoro è già visibile nelle architetture contemporanee dei modelli di frontiera. Il reinforcement learning from human feedback non è più un semplice strumento di fine-tuning, ma una struttura normativa incorporata che definisce cosa il modello “dovrebbe” essere, pur senza mai esplicitarlo in forma logica. La filosofia, in questo senso, non entra nei laboratori come disciplina esterna, ma come infrastruttura invisibile che modella il comportamento dei sistemi su scala globale.
Il punto critico, che entrambi i percorsi rendono evidente, è che la governance dell’intelligenza artificiale non si sta sviluppando attraverso regolazione esterna, ma attraverso scelte filosofiche internalizzate nei processi di addestramento. Questo crea un paradosso operativo: le decisioni più normative vengono prese nei layer più tecnici del sistema, spesso senza trasparenza pubblica, mentre il dibattito pubblico continua a discutere l’AI come se fosse ancora un problema di automazione, e non di costruzione implicita di sistemi morali computabili.
Per Amanda Askell, il punto di partenza più importante è il paper sul RLHF e l’architettura “helpful, honest, harmless”, che ha di fatto definito lo standard industriale per il fine-tuning dei modelli conversazionali moderni. Il lavoro originale è “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback”, disponibile su arXiv qui: https://arxiv.org/abs/2204.05862 (arXiv). È un paper chiave perché introduce una struttura operativa che poi viene assorbita in modo quasi standard da Anthropic e da gran parte dell’ecosistema LLM, trasformando concetti etici in segnali di reward.
Sempre nel solco di Askell, un altro lavoro centrale è “Constitutional AI: Harmlessness from AI Feedback”, che segna il passaggio da supervisione umana diretta a supervisione mediata da regole esplicite e auto-valutazione del modello. Il paper è qui: https://arxiv.org/abs/2212.08073 (arXiv). Questo è probabilmente il contributo più strategico, perché sposta il problema dell’allineamento da “etichette umane” a “costituzioni testuali”, aprendo la strada a modelli che si auto-correggono attraverso principi dichiarati invece che dataset puramente annotati.
Un terzo riferimento utile per capire la sua linea di ricerca è la pagina pubblica delle pubblicazioni, che raccoglie lavori su sycophancy, honest evaluation e comportamento dei modelli: https://askell.io/publications/ (Amanda Askell). Qui si vede bene la traiettoria: dal RLHF classico alla modellazione di bias conversazionali, fino alla costruzione di sistemi di valutazione che cercano di misurare concetti non strettamente computabili come sincerità, autocorrezione e coerenza epistemica.
Per Iason Gabriel, il documento più importante resta “Artificial Intelligence, Values and Alignment”, pubblicato su Google DeepMind e disponibile qui: https://deepmind.google/discover/blog/artificial-intelligence-values-and-alignment/ (Google DeepMind). Questo lavoro è fondamentale perché formalizza il passaggio da un’idea “ingegneristica” di allineamento a una visione esplicitamente filosofica: non si tratta di trovare la morale corretta, ma di costruire principi che possano essere giustificati in un contesto di disaccordo morale persistente.
Un altro riferimento essenziale è il paper “The Challenge of Value Alignment: from Fairer Algorithms to AI Safety”, che puoi leggere qui: https://arxiv.org/abs/2101.06060 (arXiv). In questo lavoro emerge chiaramente la sua impostazione: l’allineamento non è un problema tecnico isolato, ma una continuità tra fairness algoritmica, teoria politica e AI safety. È qui che si consolida l’idea che i sistemi di AI non possano essere “neutrali”, ma incorporino necessariamente scelte normative che devono essere rese esplicite e legittimabili.
Un contributo più recente e molto significativo è il lavoro su pluralismo e legittimità dell’allineamento, che trovi sintetizzato anche nei suoi profili DeepMind e nei paper associati sul “fair treatment of claims” e sulla governance dei sistemi agentici: https://www.iasongabriel.com/ (iasongabriel.com). Qui la direzione è ancora più politica: l’AI non viene più vista come un sistema da allineare a “valori umani” generici, ma come un’infrastruttura che deve gestire conflitti tra valori umani diversi, spesso incompatibili.
Se li osservi insieme, il pattern è abbastanza netto: Askell lavora sulla traduzione operativa dell’etica dentro il training dei modelli, Gabriel sulla legittimità filosofico-politica delle scelte di allineamento. In mezzo c’è l’industria, che prende queste idee e le trasforma in pipeline di addestramento, spesso senza più distinguere dove finisce la filosofia e dove inizia il gradient descent.


