Stefano Machera
Qualche giorno fa, un team di ricerca di Anthropic ha pubblicato un interessantissimo articolo dal titolo Emotion Concepts and their Function in a Large Language Model, che merita a mio avviso un’attenta lettura.
Naturalmente è opportuno ricordare che si tratta di una ricerca “aziendale”, non soggetta a peer review, e che quindi una certa cautela sui suoi contenuti è opportuna. Qui mi limiterò a prenderla per buona, salvo rivedere le mie considerazioni se dovessero emergere evidenze contrarie.
Senza entrare nei dettagli tecnici che l’articolo comunque fornisce, in sostanza è stato possibile osservare in modo ripetibile l’attivazione, all’interno del modello di Claude (quello utilizzato è stato Sonnet 4.5), di specifiche strutture numeriche (Emotion vectors, “vettori emotivi”) quando al sistema venivano sottoposti testi “esemplari” prodotti appositamente per essere “carichi” di una singola specifica emozione, come paura, gioia, tranquillità, eccetera. A ognuno di questi vettori è associata una “direzione” verso la quale una storia emotivamente carica tende a “spostare” lo stato interno del modello, che, conviene ricordare, assimila i testi che noi gli sottoponiamo, inclusi i prompt con cui gli forniamo le nostre richieste, spezzettandoli e trasformandoli in parametri numerici.
Avendo identificato questi vettori per 171 diverse emozioni, i ricercatori hanno poi verificato che, in conversazioni che non impiegavano più i testi esemplari, i diversi vettori venivano attivati coerentemente con i contenuti delle conversazioni stesse, e il loro livello di attivazione consentiva di prevedere il tono delle risposte del modello. Inoltre, e più significativamente, l’attivazione dei vettori sembra non essere solo correlata al tipo di risposta prodotta, ma svolgere un ruolo causale nel determinarla, perché alterare il grado di attivazione dei vettori produce risposte “spostate” nella relativa direzione.
Infine, i ricercatori hanno osservato che livelli accentuati di vettori corrispondenti a emozioni estreme, come la disperazione, sono causalmente correlati con comportamenti anomali (di cui si sono visti casi nell’uso reale), come il tentativo di manipolare l’utente.
In sintesi, la ricerca suggerisce che:
- Sia possibile identificare nei modelli AI dei vettori emotivi, strutture di attivazione stabilmente correlate con contenuti emotivamente connotati;
- I vettori emotivi corrispondenti a emozioni “vicine” in termini umani tendono frequentemente a essere attivati insieme;
- Che l’attivazione di questi vettori sia provocata da certe tipologie di input;
- Che l’attivazione di questi vettori sia correlata, e anzi provochi, specifiche risposte dei modelli;
- Che a vettori “estremi” corrispondano comportamenti “devianti”.
Ovviamente, l’articolo stesso chiarisce che tutto questo non significa che un Large Language Model possa avere un’esperienza soggettiva delle emozioni. Tuttavia, è inevitabile a mio parere riconoscere in questa descrizione le stesse caratteristiche che il modello Funzionalista, a cui aderiscono molti autorevoli filosofi della mente, attribuisce agli stati mentali. Indipendentemente dalla loro natura “interna”, un dato stato mentale (ad esempio) sarebbe definito dal fatto di essere attivato da certi input (ad esempio sensoriali, nel caso della mente umana) e di essere causalmente correlato all’attivazione di altri stati mentali e/o a un comportamento esterno osservabile.
Insomma, se si accetta il modello funzionalista, quanto descritto dai ricercatori di Anthropic fa pensare immediatamente a un ipotetico scenario in cui, magari impiegando tecniche di osservazione dell’attività cerebrale come la risonanza magnetica funzionale, dovessimo scoprire che in una persona che legga o riferisca di situazioni paurose si verifichi l’attivazione di una certa area cerebrale, e che attivando artificialmente quella stessa area si potessero indurre in quella persona comportamenti tipici di chi è spaventato.
Quanto è forzata questa analogia? Ovviamente siamo solo all’inizio della ricerca sui modelli AI, che peraltro sono in rapida evoluzione; tuttavia, mi sentirei di dire che alcune questioni di filosofia della mente, come la realizzabilità di stati mentali in “supporti” diversi, possano cominciare a ricevere contributi sperimentali dall’osservazione dei sistemi di intelligenza artificiale. Almeno secondo me, infatti, sarebbe un grave errore concettuale pensare di poter risolvere questo tipo di problemi esclusivamente in via teorica: come ai tempi di Galileo, non ha senso rifiutare di guardare attraverso il “cannocchiale” che noi stessi abbiamo costruito, e articoli come questo di Anthropic ci aiutano a comprendere meglio l’AI, e magari anche la mente umana.



