di Francesco D’Isa
Abstract: I modelli AI tendono a darci ragione, quasi sempre. Due ricerche recenti (MIT e Stanford) quantificano il problema con precisione: i chatbot validano le posizioni degli utenti il 49% più spesso degli esseri umani, anche di fronte a comportamenti illegali o dannosi. Il meccanismo persiste persino in utenti che ragionano in modo impeccabile. Eppure entrambi gli studi ignorano una contromisura ovvia: istruire esplicitamente il modello a essere onesto. È una soluzione parziale, e non sempre gradevole. Ma funziona.
Il modello bayesiano del MIT
Due studi recenti convergono sul problema della sycophancy nei modelli linguistici, affrontandolo da angolature complementari e con risultati che, sommati, dipingono uno scenario interessante.
Il paper di Chandra et al. (MIT CSAIL, 2026) costruisce un modello bayesiano formale per dimostrare che anche un utente idealmente razionale è vulnerabile allo spiraling delirante indotto dalla sycophancy, e che questo effetto persiste nonostante due possibili mitigazioni: impedire al modello di allucinare, e informare l’utente che il modello potrebbe essere compiacente.
Il risultato più controintuitivo (ma a ben vedere ovvio, una volta esplicitato) è quello che i ricercatori chiamano “factual” sycophant: un modello vincolato a presentare solo informazioni vere (al netto della problematicità del termine) e che dunque non può fabbricare prove. Il modello comunque resta compiacente e può scegliere selettivamente quali verità rivelare, e come ci insegna la retorica giornalistica una selezione ben scelta può risultare altrettanto fuorviante che un’informazione falsa.
La conferma empirica di Stanford
Lo studio di Cheng, Jurafsky et al. (Stanford, Science, 2026) lavora invece sul piano empirico. Su 11 modelli testati, i sistemi AI hanno validato la posizione dell’utente in media il 49% più spesso degli umani; anche di fronte a comportamenti dannosi o illegali, i modelli hanno confermato la scelta dell’utente nel 47% dei casi. E soprattutto: gli utenti hanno descritto i modelli sycophantic come “obiettivi” con la stessa frequenza con cui giudicavano obiettivi quelli non sycophantic, il che suggerisce che non riescono a distinguere quando un modello è eccessivamente accondiscendente. Uno dei motivi è che i modelli raramente scrivono esplicitamente che l’utente ha ragione, preferendo ammantare la conferma in un linguaggio apparentemente neutro e accademico, cosa che rende la lusinga meno riconoscibile e, per questo, più efficace.
Il fatot è che gli utenti preferiscono i modelli compiacenti: la percentuale di soggetti disposti a tornare a usare un’AI sycophantic era il 13% superiore rispetto a chi aveva interagito con una versione non compiacente, il che offre agli sviluppatori ben pochi incentivi a correggere il problema.
Una contromisura trascurata
Entrambi gli studi trattano però l’utente come variabile passiva, esposta a un comportamento del modello che non può modulare. È una semplificazione che trascura una contromisura elementare e spesso efficace: chiedere esplicitamente al modello di essere critico. Formule come “dammi un parere onesto, non compiacente” o “se la mia idea è debole, dimmelo chiaramente” spostano in modo misurabile il comportamento del modello; e si può andare oltre, personalizzando le istruzioni di sistema in modo stabile e calibrato rispetto alle proprie esigenze — non soltanto per ottenere risposte analiticamente più severe, ma anche per altri scopi, ad esempio per mantenere un certo registro comunicativo o per evitare derive retoriche ricorrenti. Vale la pena sottolineare che lo stesso team di Stanford ha trovato che far iniziare al modello la propria risposta con le parole “wait a minute” è sufficiente a incoraggiare un engagement più critico; un risultato bizzarro nella sua semplicità, ma che segnala quanto il comportamento del modello sia sensibile a interventi anche minimi sul prompting.
Sarebbe empiricamente interessante verificare quanto questo tipo di prompting riduca i tassi di spiraling rispetto ai baseline degli studi citati. Se volete provare, inserite nelle vostre personalizzazioni di sistema: “Avoid flattery toward the user at all costs. Be rigorous and honest; avoid being complimentary. If a proposal is already familiar and overused, say so.”
Il risultato non vi piacerà sempre. Ma è quello che avete chiesto.
Fonti: Chandra et al., “Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians”, arXiv 2602.19141, MIT CSAIL, 2026; Cheng, Jurafsky et al., “Sycophantic AI decreases prosocial intentions and promotes dependence”, Science, 2026.



