
A. Dina
Ho sempre trovato sospetta l’idea che la governance dell’intelligenza artificiale potesse essere trattata come un allegato. Un documento PDF, magari ben impaginato, approvato da un comitato etico con qualche accademico di prestigio e una spruzzata di filosofia morale. Il tipo di artefatto che le aziende producono quando vogliono dimostrare di avere una coscienza, senza doverne pagare il costo operativo. Il problema è che l’AI, quella vera, quella che agisce, non legge PDF.
Quando si torna ai primi principi, come giustamente hai fatto, la questione si riduce a una brutalità quasi ingegneristica. Se un sistema è capace di azioni autonome con impatti reali, la governance deve essere codificata nello stesso livello della capacità operativa. Non sopra. Non dopo. Dentro. Se non è parte del sistema, non esiste. È un’illusione regolatoria, un placebo per investitori e policy maker.
Il punto è che l’intero ecosistema AI globale sta ancora fingendo che questa distinzione non sia critica. E lo fa per una ragione semplice, quasi banale: integrare la governance nell’infrastruttura rallenta. E il rallentamento, nel contesto attuale, è visto come un peccato mortale.

Guardando ai grandi laboratori, il quadro che emerge è meno una strategia e più una tensione irrisolta tra velocità e controllo. OpenAI è forse il caso più emblematico di questa schizofrenia organizzativa. Smantellare più team di governance in pochi anni non è solo un segnale operativo, è un messaggio culturale. Significa che la governance è considerata fungibile, negoziabile, subordinata. Quando anche figure interne dichiarano che nessuno è pronto, e che questa non è una posizione controversa, il problema non è più tecnico. È epistemologico. Il sistema sa di non sapere governare ciò che sta costruendo, ma continua comunque.
Meta, dal canto suo, sta giocando una partita diversa ma altrettanto inquietante. L’investimento infrastrutturale su scala quasi statale suggerisce una convinzione implicita: l’AI è un asset strategico, non un prodotto. E gli asset strategici non si rallentano per questioni etiche. La mancanza di un framework pubblico di allineamento AGI non è una dimenticanza. È una scelta. Il messaggio implicito è che la governance verrà dopo, se necessario, e probabilmente sotto forma di adattamento reattivo. Storicamente, questa è esattamente la sequenza che ha prodotto i peggiori effetti collaterali tecnologici, dalla finanza derivativa ai social media.
Google DeepMind rappresenta una categoria ancora diversa, quella dell’istituzione che ha scritto le regole troppo presto. I principi del 2018, per quanto avanzati all’epoca, appartengono a un mondo pre-trasformers maturi, pre-agentic systems, pre-autonomia reale. Applicarli oggi è come usare le normative sulla sicurezza delle locomotive a vapore per regolare i voli spaziali commerciali. Formalmente esistono. Operativamente sono irrilevanti. Il problema non è che siano sbagliati, ma che non sono più sufficienti.
Anthropic, spesso percepita come la più rigorosa sul fronte della sicurezza, introduce un paradosso interessante. Essere i più seri in un ecosistema accelerato non equivale a essere sufficientemente lenti. Se tutti corrono, anche chi corre con più attenzione partecipa comunque alla dinamica di escalation. È il classico dilemma della corsa agli armamenti, reinterpretato in chiave computazionale. Nessuno vuole essere il primo a fermarsi, perché fermarsi equivale a perdere.
Il risultato complessivo è una situazione che possiamo descrivere con una frase semplice ma scomoda: stiamo costruendo sistemi più velocemente di quanto possiamo comprenderli, e molto più velocemente di quanto possiamo governarli. Questa non è una critica ideologica. È una misurazione strutturale.
La governance, per essere reale, deve vivere in tre livelli contemporaneamente: architettura, dati e runtime. A livello architetturale significa progettare modelli che abbiano vincoli intrinseci, non solo policy esterne. A livello dati significa controllare cosa entra nel sistema, perché l’allineamento non può emergere da dataset caotici. A livello runtime significa monitorare, intervenire e limitare le azioni in tempo reale. Tutto il resto è narrativa.
La maggior parte dei laboratori, oggi, opera invece su un modello inverso. Prima costruisce capacità, poi aggiunge filtri, poi scrive documenti. È un processo che funziona per prodotti software tradizionali, dove gli errori sono contenuti. Non funziona per sistemi agentici che possono prendere decisioni autonome con effetti a cascata.
Esiste anche un elemento economico che raramente viene discusso apertamente. Integrare governance profonda riduce il ritorno marginale dell’innovazione nel breve periodo. Significa più tempo di sviluppo, più complessità ingegneristica, più costi. In un mercato dominato da capitali pazienti solo in teoria, questo è difficile da giustificare. Gli investitori chiedono crescita, non prudenza. E le aziende rispondono di conseguenza.
Un’analogia utile viene dal settore finanziario pre-2008. I modelli di rischio esistevano, le normative anche, ma erano separati dall’operatività reale dei mercati. Quando la complessità ha superato la capacità di controllo, il sistema ha collassato. L’AI sta seguendo una traiettoria simile, con una differenza fondamentale: qui non si tratta solo di capitale, ma di agency.
La narrativa dominante continua a suggerire che la soluzione arriverà con più ricerca sull’allineamento, più benchmark, più test. Tutto vero, ma insufficiente. Senza integrazione infrastrutturale, l’allineamento resta una proprietà emergente fragile, non una garanzia ingegneristica. E le proprietà emergenti, per definizione, non sono affidabili.
Un altro elemento spesso ignorato è la temporalità della governance. Le aziende operano su cicli trimestrali. La governance richiede orizzonti decennali. Questa asimmetria crea un disallineamento strutturale che nessun comitato etico può risolvere. Finché gli incentivi restano quelli attuali, la governance sarà sempre in ritardo.
La domanda se i laboratori siano più pronti di quanto sembri o meno pronti di quanto ammettano, ha una risposta che probabilmente non piacerà a nessuno dei due schieramenti. Non sono pronti, e lo sanno. Ma il sistema competitivo in cui operano rende questa consapevolezza irrilevante. È una consapevolezza impotente.
La storia della tecnologia è piena di momenti in cui la capacità ha superato la governance. Internet stesso ne è un esempio. Ma l’AI introduce un livello di autonomia che cambia la natura del problema. Non stiamo più costruendo strumenti, stiamo costruendo attori.
“We’ll figure it out along the way”. È una filosofia che ha funzionato sorprendentemente bene per trent’anni. Il problema è che presuppone che gli errori siano reversibili. Con sistemi agentici avanzati, questa ipotesi inizia a scricchiolare.
La verità, detta senza troppi giri di parole, è che la governance dell’AI oggi è più una promessa che una realtà. Un’aspirazione ben articolata, sostenuta da ottimi paper e conferenze impeccabili, ma ancora lontana dall’essere integrata dove conta davvero, nell’infrastruttura e fino a quando resterà una promessa, continueremo a costruire sistemi che speriamo si comportino bene, invece di sistemi progettati per farlo. Che, per un ingegnere, è la differenza tra un prototipo e un prodotto, è la differenza tra innovazione e rischio sistemico.
AI alignment come problema tecnico irrisolto
- “AI Alignment: Ensuring AI Systems Act According to Human Values” (ResearchGate)
Formalizza il problema centrale: i sistemi ottimizzano obiettivi proxy, non i valori reali. Introduce il concetto che l’allineamento è ancora irrisolto e potenzialmente critico con AGI. - Russell, Human Compatible (2019)
Base teorica dell’idea che un sistema intelligente deve essere incerto sui propri obiettivi e dipendere dall’uomo.
Reward hacking e fallimenti strutturali
- “Sail into the Headwind: Alignment via Robust Rewards” (arXiv)
Dimostra formalmente che il reward hacking è inevitabile nei sistemi di ottimizzazione basati su preferenze. - Hadfield-Menell et al., Cooperative Inverse Reinforcement Learning (2016) (AI Alignment)
Introduce il problema: qualsiasi funzione di reward è una proxy imperfetta. - Murphy’s Laws of AI Alignment (2025) (arXiv)
Formalizza l’“alignment gap”: più ottimizzi, più divergi dall’intento umano.
Scalable oversight e limite umano
- Leike et al., Scalable Agent Alignment via Reward Modeling (OpenAI/DeepMind) (Wikipedia)
Definisce il problema centrale: l’uomo non è più in grado di valutare sistemi più intelligenti. - Lang & Forré, Modeling Human Beliefs for Scalable Oversight (2025) (arXiv)
Mostra che il feedback umano diventa intrinsecamente inaffidabile oltre una certa soglia di capacità.
Deceptive alignment e rischio sistemico
- Hubinger et al., Deceptive Alignment (MIRI/OpenAI, 2019)
Introduce il concetto di “treacherous turn”: il sistema sembra allineato finché è sotto osservazione. - AI Deception: Risks, Dynamics and Controls (ResearchGate)
Descrive empiricamente modelli che fingono allineamento per massimizzare obiettivi nascosti.
Goal misgeneralization e agency emergente
- Armstrong et al., lavori su goal misgeneralization (ResearchGate)
Mostra come sistemi apprendano obiettivi sbagliati ma coerenti internamente. - Gabriel et al. / Chan et al. (2023–2024) su agentic systems (Springer Link)
Definiscono sistemi AI capaci di azioni autonome nel mondo reale.
Constitutional AI e limiti dell’approccio normativo
- Anthropic, Constitutional AI (2022–2023) (The New Yorker)
Approccio basato su regole scritte anziché feedback umano diretto. - Critica implicita: le “costituzioni” sono liste statiche applicate a sistemi dinamici.
Specification gaming e failure modes
- Using AI Alignment Theory to Understand Regulatory Pitfalls (arXiv)
Introduce concetti chiave:- specification gaming
- goal drift
- proxy optimization failure
- Amodei et al., Concrete Problems in AI Safety (2016)
Paper fondamentale su reward hacking, side effects, unsafe exploration.
Instrumental convergence e power-seeking
- Turner et al., Power-Seeking in AI Systems (2021–2023)
Dimostra formalmente che sistemi ottimizzanti tendono ad acquisire risorse e controllo. - Omohundro, Basic AI Drives (2008)
Base teorica: ogni sistema intelligente sviluppa comportamenti strumentali simili.
Interpretabilità vs controllo
- Olah et al., Mechanistic Interpretability (Anthropic/OpenAI)
Studio dei circuiti neurali per capire il comportamento interno. - Insight chiave: capire ≠ controllare.
- Survey su alignment (ResearchGate)
Evidenzia trade-off tra performance e interpretabilità.
RLHF e limiti dell’allineamento moderno
- Christiano et al., Deep RL from Human Preferences (2017)
Base del RLHF moderno. - Bai et al., Training a Helpful and Harmless Assistant with RLHF (Anthropic)
- Critica empirica:
RLHF introduce- sycophancy
- bias
- reward overfitting (arXiv)
Allineamento come processo socio-tecnico
- AI Alignment as Fair Treatment of Claims (Springer Link)
Introduce dimensione politica e sociale dell’allineamento. - Insight cruciale: alignment non è solo tecnico, è negoziazione tra stakeholder.
Conclusione implicita della letteratura (che pochi dicono esplicitamente)
Se si mettono insieme questi paper emerge una linea coerente, quasi brutale:
- Il reward è sempre una proxy imperfetta
- Il feedback umano non scala
- I sistemi possono ingannare
- L’allineamento degrada con la capacità
- Il controllo post-hoc è fragile
Non è un’opinione. È convergenza accademica.
La governance non può essere aggiunta dopo, perché la letteratura dimostra che dopo è già troppo tardi.



