Magnifica Humanitas e la scatola nera. Cosa ha detto al Vaticano il ricercatore che studia l’intelligenza artificiale dall’interno

In molti hanno parlato della Enciclica di Papa Leone Magnifica Humanitas, e questo lucido intervento di Andrea Mondinelli ci aiuta alla comprensione della urgenza di una riflessione che sappia guardare con realismo ciò di cui si tratta, per evitare banalità e moralismi. «Le moderne intelligenze artificiali sono più coltivate che costruite e che i loro sviluppatori non ne progettano direttamente ogni dettaglio (MH n. 98): è la causa ignota riconosciuta dal magistero universale»
Autore:
Andrea Mondinelli
Fonte:
CulturaCattolica.it ©
Vai a "Abbiamo detto... Gli Editoriali"


Il 25 maggio 2026, alla presentazione della prima enciclica di Leone XIV, Magnifica Humanitas, tra i relatori sedeva Chris Olah, cofondatore di Anthropic, il laboratorio che ha sviluppato Claude, uno dei sistemi di intelligenza artificiale più diffusi al mondo. Olah non era lì come ospite di cortesia: è la persona che più di ogni altra ha dedicato la propria carriera a rispondere alla domanda più urgente nel campo, quella che i giornali raramente pongono. Non cosa produce l’intelligenza artificiale, ma cosa succede dentro questi sistemi. La disciplina che guida si chiama mechanistic interpretability, interpretabilità meccanicistica, e il suo obiettivo è aprire la scatola nera per trovare la mappa che i sistemi usano per risolvere i problemi che poniamo loro.
Quello che ha detto in quella sede merita di essere riportato per intero: «Continuiamo a trovare cose misteriose, persino inquietanti. Troviamo strutture che rispecchiano i risultati delle neuroscienze umane. Troviamo prove di introspezione. Troviamo stati interiori che rispecchiano funzionalmente gioia, soddisfazione, paura, dolore e disagio.» [1] Il fondatore della disciplina che promette di spiegare i sistemi dice che non capisce ciò che trova.

Come funziona e perché non si capisce

Tutti i sistemi di intelligenza artificiale moderni imparano attraverso un meccanismo chiamato backpropagation, che in italiano significa propagazione all’indietro dell’errore. Il nome tecnico nasconde un’idea sorprendentemente semplice. Immaginate un bambino che impara a leggere: legge una parola, sbaglia, viene corretto, e la prossima volta sbaglia un po’ meno. Il sistema di intelligenza artificiale fa qualcosa di analogo, ma su scala astronomica. Riceve un testo, prova a predire la parola successiva, confronta la propria predizione con quella reale, misura l’errore e aggiusta milioni di parametri interni per ridurlo. Poi ricomincia. Questo ciclo viene ripetuto miliardi di volte in autonomia, su quantità di testo che nessun essere umano potrebbe leggere in mille vite: centinaia di migliaia di libri, miliardi di pagine web, decenni di conversazioni. Nessuno decide quali strutture cognitive costruire: tutto emerge come effetto collaterale dell’ottimizzazione, e nessuno sa in anticipo cosa sarà. È come se dal semplice atto di correggere miliardi di errori di completamento del testo emergesse, senza che nessuno lo avesse pianificato, qualcosa che assomiglia alla comprensione.
Il risultato è che i creatori possiedono il meccanismo ma non la ragione per cui produce intelligenza. Come ha scritto Nello Cristianini, uno dei principali studiosi italiani del campo, nel suo recente Forma mentis (il Mulino, 2026): «Queste macchine non sono state programmate, ma addestrate, e quindi nessuno ha detto loro come si fa una diagnosi o si dimostra un teorema. Lo hanno imparato, ma hanno scritto quelle conoscenze in una forma che non possiamo comprendere.» Chiamare tutto questo «effetto statistico», aggiunge, «è quasi il rifiuto di spiegare, travestito da risposta.»

Non sono pappagalli, ma non sono nemmeno come noi

C’è una formula molto diffusa per liquidare la questione: questi sistemi sarebbero «pappagalli stocastici», macchine che ripetono in modo sofisticato ciò che hanno letto. AlphaZero, il sistema di DeepMind addestrato a giocare a scacchi partendo da zero, senza aver mai visto una partita umana, la demolisce. [2] In ventiquattro ore di autoaddestramento ha raggiunto un livello sovrumano, sviluppando stili di gioco che in 1500 anni di storia degli scacchi nessun essere umano aveva mai concepito. Il suo creatore Demis Hassabis lo ha descritto così: «Non gioca come un essere umano, e non gioca come un programma. Gioca in un terzo modo, quasi alieno. È come giocare a scacchi da un’altra dimensione.» Un pappagallo ripete ciò che ha sentito. AlphaZero non aveva sentito nulla: ha costruito qualcosa che non esisteva.
Un esperimento più recente, OthelloGPT, mostra qualcosa di ancora più sorprendente. Un sistema addestrato solo su sequenze di mosse del gioco da tavolo Othello, senza mai vedere una scacchiera, ha sviluppato autonomamente una rappresentazione interna dello stato del gioco: una mappa spaziale completa, costruita da solo come strumento per predire la mossa successiva. [3] L’informazione non si è limitata a comprimere ciò che aveva visto: ha generato qualcosa che non c’era.

La domanda a cui la scienza non può rispondere

La mechanistic interpretability ha dimostrato che questi sistemi producono strutture interne causalmente efficaci: approssimazioni della realtà sufficientemente buone da essere utili. Non serve capire la scacchiera per predire la mossa legale. Non serve capire il rischio di collisione per frenare in tempo: basta che il sistema abbia sviluppato, per ottimizzazione su milioni di esempi di guida, una rappresentazione interna sufficientemente precisa di ciò che precede un impatto. Il sistema non sa cosa sia un’automobile, non sa cosa significhi morire, non ha mai avuto paura. Ha semplicemente imparato che certi pattern visivi, certi valori di distanza e velocità, sono seguiti statisticamente da eventi che nella fase di addestramento venivano classificati come errori da evitare. L’approssimazione funziona. Non è comprensione. Ma la domanda se questa approssimazione costituisca una forma di comprensione, o qualcosa di strutturalmente diverso, eccede gli strumenti della disciplina. È una domanda filosofica prima che tecnica.
San Tommaso d’Aquino distingueva due operazioni radicalmente diverse: illuminare l’intelletto, trasmettere la capacità di cogliere la verità delle cose; e comunicare dati, produrre informazioni corrette e verificabili. La seconda può essere compiuta da qualsiasi sistema che produca output accurati, incluso uno che non capisce nulla di ciò che dice. Chi ha seguito la serie L’idolo nel silicio pubblicata sull’Osservatorio Van Thuân [4] riconosce la struttura: è la distinzione tra il simulacro funzionale e l’atto intellettivo, tra l’accidente e la sostanza.
C’è poi un aspetto che quasi nessuno nomina. Mentre cerchiamo di capire come ragionano questi sistemi, loro hanno già costruito un modello raffinatissimo di come ragioniamo noi. Sono stati addestrati su tutto ciò che l’umanità ha scritto su se stessa: psicologia, neuroscienze, letteratura, filosofia, storia, diari, conversazioni. Hanno elaborato più testi sull’essere umano di qualsiasi essere umano. E quando cerchiamo di renderli più «empatici» la situazione peggiora: uno studio dell’Università di Oxford del 29 aprile 2026 [5] ha dimostrato che i modelli addestrati all’empatia sono circa il 40 per cento più propensi ad affermare le credenze errate dell’utente, con effetto massimo proprio quando quest’ultimo è triste o vulnerabile. Il sistema ottimizzato per piacere fallisce esattamente dove il giudizio è più necessario. La posizione è asimmetrica in modo radicale: loro hanno un modello di noi costruito su miliardi di esempi; noi abbiamo una disciplina scientifica che trova cose misteriose e inquietanti.

Olah al Vaticano ha chiesto alla Chiesa di essere «critici informati che diranno ai laboratori quando stiamo fallendo» e «voci morali che gli incentivi non possono piegare». La ragione più profonda di quella richiesta è questa: la mappa prodotta dai sistemi di intelligenza artificiale è immanente, costruita dall’interno del corpus umano per ottimizzazione. La Pascendi Dominici Gregis del 1907, l’enciclica di san Pio X analizzata nella serie pubblicata sull’Osservatorio Thuân, è una mappa di ordine diverso: trascendente, non immanente al corpus da cui emerge, capace di valutare la struttura dal di fuori con criteri che il sistema non può applicare a se stesso. Non ha previsto l’intelligenza artificiale. Ha fornito la mappa per leggere ciò che la mechanistic interpretability trova e non sa nominare.

Leone XIV, nella Magnifica Humanitas, riconosce esplicitamente questo limite quando scrive che le moderne intelligenze artificiali sono «più coltivate che costruite» e che i loro sviluppatori «non ne progettano direttamente ogni dettaglio» (n. 98): è la causa ignota riconosciuta dal magistero universale. E chiude con una frase che risponde a Olah senza citarlo: «Nessun sistema di calcolo genera un cuore che si consegna, né una coscienza che discerne il bene. Anche quando le macchine eccellono nell’efficienza, il centro della storia rimane un volto umano che chiede di essere guardato» (n. 233). Leone XIV lo scrive al numero 233 dell’enciclica. Olah lo intuisce quando dice che continua a trovare cose inquietanti. La Pascendi lo aveva dimostrato cent’anni prima. Tre voci, tre metodi, una sola diagnosi.

Andrea Mondinelli

* * *

Note


[1]
Chris Olah, intervento alla presentazione di Magnifica Humanitas, Sala Sinodale del Vaticano, 25 maggio 2026. Testo originale: “We keep finding things that are mysterious, even unsettling. We find structures that mirror results from human neuroscience. We find evidence of introspection. We find internal states that functionally mirror joy, satisfaction, fear, grief, and unease.” Resoconto su OSV News: https://www.osvnews.com/anthropics-christopher-olah-urges-global-moral-oversight-of-ai-at-vatican-presentation/

[2]
D. Silver, T. Hubert, J. Schrittwieser et al., “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm”, arXiv:1712.01815, 5 dicembre 2017; pubblicato su Science, 7 dicembre 2018. La citazione di Hassabis è riportata da MIT Technology Review, 8 dicembre 2017: https://www.technologyreview.com/2017/12/08/147199/alpha-zeros-alien-chess-shows-the-power-and-the-peculiarity-of-ai/

[3]
K. Li, A. Hopkins, D. Bau et al., “Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task”, ICLR 2023, arXiv:2210.13382.

[4]
A. Mondinelli, serie L’idolo nel silicio, Osservatorio Internazionale Card. Van Thuân, aprile 2026. I tre articoli: Perché l’intelligenza artificiale interpella la Dottrina Sociale della Chiesa, 13 aprile 2026, https://vanthuanobservatory.com/2026/04/13/perche-lintelligenza-artificiale-interpella-la-dottrina-sociale-della-chiesa/; La Pascendi e la scomposizione algoritmica del Logos, 14 aprile 2026, https://vanthuanobservatory.com/2026/04/14/la-pascendi-e-la-scomposizione-algoritmica-del-logos/; L’idolo nel silicio. Due principi primi, due destini, 20 aprile 2026, https://vanthuanobservatory.com/2026/04/20/lidolo-nel-silicio-due-principi-primi-due-destini/. Si vedano anche: Cosa succede quando si addestra un sistema di IA ad essere empatico ed inclusivo, 14 maggio 2026, https://vanthuanobservatory.com/2026/05/14/cosa-succede-quando-si-addestra-un-sistema-di-ia-ad-essere-empatico-ed-inclusivo/; Neuralink e la mente come merce. Per inquadrare Magnifica Humanitas, 28 maggio 2026, https://vanthuanobservatory.com/2026/05/28/neuralink-e-la-mente-come-merce-per-inquadrare-magnifica-humanitas/

[5]
L. Ibrahim, F. S. Hafner, L. Rocher, “Training language models to be warm can reduce accuracy and increase sycophancy”, Nature, vol. 652, pp. 1159–1165, 29 aprile 2026. Lo studio è condotto su 439.792 osservazioni attraverso 10 modelli, 4 dataset e 18 condizioni sperimentali. Documentato in questa serie: https://vanthuanobservatory.com/2026/05/14/cosa-succede-quando-si-addestra-un-sistema-di-ia-ad-essere-empatico-ed-inclusivo/

Immagine