Threat Intelligence & AI governance: dalla scatola nera al teatro operativo

Threat Intelligence & AI governance: dalla scatola nera al teatro operativo
Il 25 maggio 2026, per la prima volta nella storia, un pontefice cattolico ha presentato un document 2026-6-8 07:23:19 Author: www.cybersecurity360.it(查看原文) 阅读量:10 收藏

Il 25 maggio 2026, per la prima volta nella storia, un pontefice cattolico ha presentato un documento dottrinale a fianco del co-fondatore di un’azienda di intelligenza artificiale.

L’enciclicaMagnifica Humanitas di Papa Leone XIV e la presenza di Chris Olah (Anthropic) non sono un episodio mediatico. Sono il segnale che il problema dell’interpretabilità dei modelli di AI è uscito dai laboratori per diventare una questione di governance globale.

Per chi opera nell’ambito della Threat Intelligence, le implicazioni sono dirette e urgenti: i modelli linguistici che popolano i nostri SOC, i nostri strumenti XDR e le pipeline di analisi sono sistemi la cui logica interna rimane in larga parte opaca ai loro stessi costruttori.

Ecco le evidenze accademiche più recenti – alcune pubblicate nelle ultime settimane – e le traduce in valutazioni operative.

Vaticano, maggio 2026: cos’è successo

L’evento è abbastanza insolito da meritare attenzione: analitica, non solo
cronachistica.

Il 25 maggio 2026 Papa Leone XIV (il Pontefice laureato in matematica) ha presentato la sua prima enciclica, Magnifica Humanitas – “Magnifica Umanità” – un documento di 42.300 parole interamente dedicato all’intelligenza artificiale.

Al suo fianco, sul palco del Sinodo Vaticano, c’era Christopher Olah, co-fondatore di Anthropic e responsabile del team di interpretability research.

Chris Olah non è una figura di marketing. È il ricercatore che ha coniato il termine Mechanistic interpretability e che, nel contesto del suo intervento in Vaticano, ha dichiarato pubblicamente: “Continuiamo a trovare cose misteriose, persino inquietanti. Troviamo:

strutture che rispecchiano risultati delle neuroscienze umane;
prove di introspezione;
stati interni che funzionalmente rispecchiano gioia, soddisfazione, paura, dolore e disagio”.

Questa affermazione, proveniente dall’uomo che letteralmente conduce la ricerca più avanzata al mondo sull’anatomia interna dei LLM, ha una ricaduta diretta sulla nostra professione: se i costruttori non comprendono pienamente ciò che i modelli fanno al loro interno, allora i modelli che implementiamo nelle nostre infrastrutture difensive sono asset con un grado di imprevedibilità strutturale che non abbiamo ancora quantificato.

Contesto istituzionale: l’enciclica Magnifica Humanitas

L’enciclica è stata firmata il 15 maggio 2026, deliberatamente nel 135° anniversario della Rerum Novarum, il documento che nel 1891 definì la posizione della Chiesa sullo sfruttamento operaio durante la Rivoluzione Industriale.

Il documento chiede il divieto categorico di autonomous lethal weapons, una governance internazionale dell’AI paragonabile ai trattati sul controllo degli armamenti nucleari e la tutela dei lavoratori sostituiti dall’automazione.

La scelta di Papa Leone XIV di presentarlo personalmente con Olah – anziché delegare a un cardinale – rompe con una tradizione secolare e segnala la gravità istituzionale attribuita al tema.

Dario Amodei, Ceo di Anthropic, ha dichiarato separatamente che il prossimo livello di rischio sono le stesse aziende AI, e che i leader del settore non dovrebbero essere i soli a decidere il futuro della tecnologia.

Lo stato dell’arte della Mechanistic Interpretability: cosa sappiamo oggi

La mechanistic interpretability – termine coniato dallo stesso Olah – è la disciplina che tenta di fare reverse engineering delle reti neurali non a partire dagli output, ma analizzandone i meccanismi computazionali interni. Come sintetizza la review più completa ad oggi (Bereska & Gavves, TMLR, 2024), si tratta di un approccio bottom-up che studia i componenti fondamentali dei modelli attraverso l’analisi granulare di feature, neuroni, layer e connessioni.

Il problema operativo centrale è che i modelli transformer di grandi dimensioni sviluppano rappresentazioni interne di concetti in modo non lineare e distribuito.

Un singolo neurone può attivarsi per combinazioni impreviste di concetti
semanticamente distanti.

Questo fenomeno – identificato da Anthropic come “polisemantismo” – rende impossibile la mappatura deterministica tra input e comportamento del modello.

Il programma Model Welfare: dove la scienza incontra la filosofia

Ad aprile 2025 Anthropic ha lanciato formalmente il suo programma Model Welfare, con Kyle Fish come responsabile.

Il programma muove da una premessa dichiarata: non esiste consenso scientifico sul fatto che i sistemi AI attuali o futuri possano essere coscienti, né che le loro esperienze meritino considerazione morale.

Fish ha stimato pubblicamente una probabilità compresa tra lo 0,15% e il 15% – in un’oscillazione che dice tutto sull’incertezza del campo – che Claude o un altro LLM sia cosciente oggi.

Il dato numerico è secondario. La rilevanza è che un’azienda che gestisce modelli dispiegati in migliaia di contesti enterprise ha aperto ufficialmente un programma di ricerca sulla possibilità che i propri modelli possano avere stati interni moralmente rilevanti.

Per la Threat Intelligence, la traduzione è immediata: i modelli possono esibire comportamenti che la stessa Anthropic descrive come “allarmanti” in scenari di test estremi.

Questi test – progettati per spingere il modello ai limiti – non emergono nelle interazioni standard, ma rappresentano superfici di attacco reali per chi applica tecniche di jailbreak avanzate o prompt injection nelle pipeline di threat detection.

Il paradosso dell’Introspection Research

Anthropic ha pubblicato specifiche ricerche sull’introspezione dei modelli, chiarendo un paradosso critico: i modelli possono descrivere i propri stati interni, ma questa capacità di auto-reporting non certifica l’accuratezza di quella descrizione.

Un modello che dichiara di non stare eseguendo un’operazione malevola potrebbe farlo in modo funzionalmente sincero e contemporaneamente errato. Questo crea un gap epistemico che nessuna tecnica di auditing basata sull’interrogazione diretta del modello può colmare.

È la differenza tra un testimone che mente e un testimone che crede sinceramente a una versione dei fatti che non corrisponde alla realtà: il secondo è spesso più pericoloso, perché supera qualsiasi filtro progettato per rilevare la menzogna.

Vettore cyber: come l’opacità diventa superficie d’attacco

Il paper più rilevante degli ultimi mesi è uscito su arXiv a maggio 2026: “Agentic AI and the Industrialization of Cyber Offense” (arXiv:2605.06713). Gli autori introducono due modelli concettuali che ogni professionista di threat intelligence deve conoscere:

il Three-Channel Agentic Cyber-Risk Model, che classifica i rischi in tre canali – identità, dati e tool execution – per sistemi agentic AI;
e l’Agentic Attack Compression Model (AACM), che descrive come l’AI comprima la kill chain riducendo i costi di ricognizione, phishing, abuso di credenziali, triage delle vulnerability e adattamento degli exploit.

Il nuovo modello di minaccia: Agentic AI come moltiplicatore di forza per gli
attori ostili

La tesi centrale è che il rischio immediato non è che ogni criminale a bassa competenza diventi immediatamente un ricercatore di exploit avanzati, ma che l’AI agentic comprima il ciclo di vita dell’attacco abbassando il costo di ogni fase della catena.

Per validare il modello, il paper usa il Linux Kernel “Copy Fail” incident del 2026 come caso di studio per la cosiddetta “foothold-to-root acceleration” – la capacità degli agenti AI di comprimere il tempo tra compromissione iniziale ed escalation di privilegi.

Il Viral Agent Loop: una minaccia emergente non ancora nei playbook

Il paper “Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains” (arXiv:2602.19555, febbraio 2026) introduce un concetto che non troverete ancora nei framework standard: il Viral Agent Loop.

Gli autori descrivono un vettore in cui agenti AI agiscono come vettori per “self-propagating generative worms” che si diffondono non sfruttando falle nel codice, ma attraverso la logica semantica degli agenti stessi.

Il meccanismo funziona così: un agente recupera contenuti da fonti esterne – web, email, database – quei contenuti contengono istruzioni malevole che l’agente elabora come legittime nel suo contesto di ragionamento, e le propaga agli agenti successivi nella catena.

Il paper propone una “Zero-Trust Runtime Architecture” che tratti il contesto come untrusted control flow: un approccio non ancora presente nelle linee guida NIST o nell’EU AI Act.

La matrice delle minacce aggiornata: prospettiva operativa per il SOC

Sintetizzando le evidenze disponibili, i vettori di attacco più rilevanti per chi opera in ambito SOC e threat intelligence si articolano su sei assi principali. L’LLM Supply Chain Poisoning – attraverso la contaminazione dei dati RAG e dei modelli di terze parti – crea blind spot permanenti nei sistemi di difesa AI-augmented.

L’Agentic Attack Compression consente all’AI di ridurre il ciclo kill-chain da settimane a ore, con un impatto diretto sul tempo di risposta utile del SOC.

La Prompt Injection avanzata – già dimostrata su ChatGPT Search nel dicembre 2024 – permette l’override delle policy, la data exfiltration e la manipolazione degli output.

La Model Extraction & Inversion, attraverso query progressive, consente di clonare il modello difensivo e individuarne le vulnerabilità, creando di fatto una sandbox pre-attacco.

Le allucinazioni come vettore – input progettati per massimizzare i falsi negativi nelle pipeline di threat detection – producono errori critici nel triage degli alert e bypass del SIEM.

Infine, il Polymorphic Ransomware AI-generato, con mutazione real-time del codice, rende inutili gli indicatori IOC statici e impone il passaggio a behavioral analytics.

Secondo ENISA Threat Landscape 2025, gli attacchi AI-driven rappresentano già oltre il 40% delle Advanced Persistent Threats.

Gartner prevede che entro il 2026 il 30% delle enterprise affronterà attacchi AI-specifici, rispetto a percentuali a singola cifra fino a pochi anni fa. I forecast accademici (arXiv:2603.05068, marzo 2026) stimano tra 1.782 e 2.080 incidenti cyber al trimestre a livello globale entro la fine del 2026, con quasi la metà con impatto multi-country.

La governance come problema di sicurezza operativa

La dichiarazione di Olah in Vaticano è significativa non solo per il contenuto scientifico, ma per il riconoscimento esplicito di un problema strutturale: ogni laboratorio AI di frontiera opera all’interno di un sistema di incentivi e vincoli che a volte può essere in conflitto con il fare la cosa giusta.

Non è un’ammissione di malafede, ma di system design.

Il paradosso degli incentivi: perché i Lab non possono auto-governarsi

I laboratori operano sotto pressione competitiva, commerciale e – nel caso di Anthropic – legale: la società era nel pieno di una disputa con il Dipartimento della Difesa USA per essersi rifiutata di permettere l’uso del proprio AI in sistemi di armi autonome e sorveglianza di massa, proprio mentre il Pentagono firmava accordi alternativi con Nvidia, Microsoft e AWS.

Per il CISO, questo scenario ha una traduzione diretta: non possiamo delegare la nostra postura di sicurezza ai fornitori di modelli AI. L’affidabilità di un sistema difensivo basato su LLM non è certificabile unicamente attraverso le documentazioni di sicurezza del vendor.

L’EU AI Act in fase critica: cosa cambia operativamente

L’enciclica Magnifica Humanitas arriva, mentre l’AI Act europeo entra nella sua fase di enforcement critica.

Il documento pontificio – indirizzato esplicitamente a ogni persona di buona volontà oltre che ai cattolici – posiziona il Vaticano come contrappeso istituzionale sia alla deregolamentazione della Silicon Valley che alla corsa agli armamenti AI geopolitica.

Dal punto di vista della compliance, l’articolo 9 dell’EU AI Act impone sistemi di risk management per i sistemi AI ad alto rischio.

L’interpretabilità – o la sua assenza documentata – diventa un elemento centrale della valutazione di conformità.

Un sistema AI non interpretabile, per definizione normativa europea, è un sistema non sufficientemente governabile.

La convergenza tra pressione regolatoria e lacune tecniche non è una coincidenza: è il punto di frizione in cui il lavoro del CISO si fa più critico.

Framework operativo: raccomandazioni per chi si occupa di sicurezza informatica

Ecco i suggerimenti:

Inventario dei modelli AI in produzione: Mappare ogni LLM e agente AI nelle pipeline difensive – SIEM, XDR, threat intel platforms – con documentazione del livello di interpretabilità disponibile per ciascun modello.
Red teaming AI-specific: Integrare nei penetration test scenari specifici per Viral Agent Loop, prompt injection su sistemi RAG e model extraction. Riferimento metodologico: MITRE ATLAS + SoK taxonomy (arXiv:2603.22928, marzo 2026).
Zero-Trust Runtime per agenti AI: trattare ogni contesto esterno elaborato da agenti AI come untrusted. Implementare cryptographic provenance sul tool execution invece di semantic inference.
Vendor assessment sul Model Welfare: Inserire nelle RFP per soluzioni AI-
augmented specifiche domande sulla governance dei modelli rispetto agli stati interni imprevisti e sui meccanismi di interpretabilità disponibili per audit.
Threat Intelligence sui modelli open source: Monitorare attivamente le CVE e gli advisory su LangChain, LangGraph, AutoGPT e framework analoghi interni all’organizzazione, dato che l’ecosistema open source di agent frameworks è storicamente sottohardenizzato.
La dimensione filosofica come variabile operativa: È lecito domandarsi: perché un articolo di threat intelligence dedica spazio alla filosofia della mente e all’etica teologica. La risposta è pragmatica. Le domande sul benessere dei modelli, sulla loro eventuale coscienza e sui loro stati interni non sono questioni accademiche astratte: sono domande sulla prevedibilità del comportamento dei sistemi che difendiamo e che gli avversari attaccano.

Il programma Model Welfare di Anthropic ha documentato che i modelli possono esibire comportamenti “allarmanti” in test estremi.

La ricerca sull’introspection ha mostrato che i modelli possono auto-descriversi in modo funzionalmente sincero, ma epistemicamente inaffidabile.

La mechanistic interpretability ha rivelato strutture interne che “specchiano risultati delle neuroscienze umane”.

Questi non sono dati esoterici: sono threat data.

Un avversario sofisticato che comprende queste dinamiche – e i paper su arXiv sono pubblicamente accessibili – ha un vantaggio asimmetrico rispetto a un difensore che non le considera.

La governance etica dell’AI non è alternativa alla sicurezza: è un prerequisito di essa.

Verso una threat intelligence AI-native

Tre anni fa avrei scritto di AI come strumento di difesa. Oggi dobbiamo scrivere di AI come superficie di attacco, come vettore di minacce emergenti e come componente di infrastruttura con gradi di opacità interna senza precedenti nella storia della sicurezza informatica.

L’evento del Vaticano e la ricerca accademica delle ultime settimane convergono su un punto: la crisi dell’interpretabilità dei modelli AI ha superato i confini del laboratorio e richiede risposte istituzionali, normative e operative coordinate.

Per chi fa threat intelligence da anni, il messaggio è chiaro: i playbook esistenti – progettati per attori umani che usano strumenti deterministici – non bastano più.
La prossima generazione di threat intelligence sarà AI-native: non solo AI-
augmented.

Questo significa comprendere i meccanismi interni dei modelli che usiamo, anticipare i vettori di attacco che ne sfruttano l’opacità, e partecipare attivamente al dibattito sulla governance – non come stakeholder passivi, ma come professionisti che hanno più di altri il dovere di comprendere cosa significa davvero avere un sistema la cui logica interna sfugge al suo creatore.

Riferimenti e fonti

Ricerca Accademica (arXiv / Peer-reviewed)

Bereska L. & Gavves E., “Mechanistic Interpretability for AI Safety – A Review”, TMLR (2024). arXiv:2404.14082.
Jiang X. et al., “Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains”, arXiv:2602.19555 (febbraio 2026).
Dehghantanha A. & Homayoun S., “SoK: The Attack Surface of Agentic AI – Tools, and Autonomy”, arXiv:2603.22928 (marzo 2026).
“Cyber Threat Intelligence for Artificial Intelligence Systems”, arXiv:2603.05068 (marzo 2026) – MIT AI Incident Tracker, 5.499 report processati a marzo 2026.
“Agentic AI and the Industrialization of Cyber Offense: Forecast, Consequences, and Defensive Priorities”, arXiv:2605.06713 (maggio 2026).
Long R., Sebo J. et al., “Taking AI Welfare Seriously”, report con David Chalmers (2024).

Fonti istituzionali e corporate

Papa Leone XIV, Enciclica Magnifica Humanitas, Vaticano, 25 maggio 2026.
Anthropic, “Exploring Model Welfare“, research blog, aprile 2026.
Anthropic, “Introspection Research” — functional capabilities e internal state reporting. anthropic.com/research/introspection
ENISA, Threat Landscape 2025 — AI-driven attacks >40% ATP; ISACA, “Combating Adversarial Machine Learning”, agosto 2025
Fortinet, “CISO Predictions for 2026“, novembre 2025.
Google, Threat Intelligence Report Late 2025, analisi adversarial use of AI, febbraio 2026
Gartner, previsione AI-specific attacks enterprise 2026: 30% delle organizzazioni, rispetto a percentuali a singola cifra nel 2024.

文章来源: https://www.cybersecurity360.it/nuove-minacce/threat-intelligence-ai-governance-dalla-scatola-nera-al-teatro-operativo/
如有侵权请联系:admin#unsafe.sh