Gartner ha pubblicato il 9 giugno la classifica annuale delle minacce AI per il 2026 e ha collocato di nuovo la “prompt injection” al primo posto, per il secondo anno consecutivo in cima alla lista. La diffusione degli agenti AI nei prodotti enterprise allarga la superficie d’attacco oltre il perimetro che le funzioni di sicurezza erano abituate a presidiare, mentre i deployment escono dalla fase pilota e iniziano a toccare email, documenti, sistemi gestionali e flussi di pagamento.
Ogni agente connesso a strumenti, archivi documentali e sistemi di terze parti diventa un punto di iniezione potenziale. Il problema è di architettura, non di prodotto: i modelli linguistici trattano istruzioni e dati come un unico flusso testuale, senza la separazione di canale che esiste tra codice e input in un’applicazione tradizionale. L’attaccante parla la stessa lingua del modello, e il modello obbedisce.
▶” frameborder=”0″ allow=”accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture” allowfullscreen title=”Vedi il video”>
Il report di Gartner, firmato da Avivah Litan (Distinguished VP Analyst), elenca cinque minacce in ordine di gravità: prompt injection, data leakage, agent hijacking, supply chain AI e hallucination amplification. La prima consolida la propria posizione perché abilita le altre quattro, dall’esfiltrazione di dati all’avvelenamento delle catene di fornitura modelli, e conferma un quadro già emerso negli scorsi mesi.
Le istruzioni e i dati condividono lo stesso canale: il modello non distingue.
Direct, indirect, hidden: il vettore che parla la lingua del modello
La “prompt injection” si presenta in tre forme principali. La variante diretta è il classico “jailbreak”, in cui l’utente formula un input che scavalca le istruzioni di sistema. La “indirect injection” nasconde le istruzioni dentro contenuti che l’agente legge per conto suo: pagine web, PDF, email, record di un database. La variante “hidden” sfrutta caratteri zero-width, codifiche esotiche e font invisibili per occultare comandi a un occhio umano lasciandoli leggibili al modello.
A differenza di XSS o SQL injection, il payload qui è linguaggio naturale, e il “parser” è un modello statistico addestrato a obbedire alle istruzioni testuali. Non esiste un equivalente del prepared statement che separa logica e dati: filtrare con regex significa giocare a un gioco di parole con un avversario creativo.
A marzo 2026 un ricercatore di Trail of Bits ha dimostrato che un agente background di Cursor IDE, leggendo un file README malevolo, poteva esfiltrare il contenuto dei file .env con credenziali di produzione. La patch è arrivata in 48 ore, ma il pattern resta: ogni agente che processa contenuto non controllato è un canale di iniezione. Vulnerabilità simili hanno colpito Anthropic Claude nell’elaborazione di file, ChatGPT Operator e lo stesso Cursor IDE. I paper 2025-2026 descrivono iniezioni nascoste dentro immagini OCR-leggibili, HTML invisibile e codifiche steganografiche; la mitigation suggerita chiede al modello stesso di valutare se un’istruzione “sembra venire dall’utente”, un approccio che delega al guardiano la verifica sul guardiano.
L’aggiornamento 2026 della OWASP Top 10 for LLM Applications aggiunge tre sottocategorie nate con gli agenti: “tool-use injection”, “persistent injection” e “supply-chain injection”. Categorie impensabili nel mondo dei chatbot isolati, centrali quando l’LLM diventa orchestratore.
Le cifre non collimano e questo è già un problema
Google ha registrato un aumento del 32% degli attacchi di “indirect prompt injection” sui propri agenti tra novembre 2025 e febbraio 2026, secondo i dati pubblicati sul Security blog. Il numero misura tentativi rilevati su agenti in produzione e dice che la pressione cresce trimestre su trimestre. OWASP nello stesso periodo riporta un balzo del 340% anno su anno dei tentativi tracciati sui propri honeypot LLM pubblici, che restano alla voce LLM01 della Top 10.
Il delta fra le due metriche racconta l’opacità della superficie reale: gli honeypot attirano traffico ostile per definizione, gli agenti in produzione fotografano una pressione filtrata dalla telemetria del vendor. La verità sta nello scarto, ed è uno scarto enorme. A questo si aggiunge il contesto credenziali: il data breach del 2025 ha esposto 16 miliardi di credenziali, secondo Have I Been Pwned, e quelle credenziali alimentano sessioni legittime su cui l’attaccante può iniettare comandi senza superare alcun controllo perimetrale.
Honeypot e produzione misurano cose diverse: lo scarto è la vera mappa.
Triplo cappello compliance: ACN, AI Act art. 15, NIS2
Chi distribuisce agenti AI nel mercato italiano si trova tre regimi di compliance sovrapposti. L’AI Act all’articolo 15 obbliga i sistemi ad alto rischio (banking, sanità, infrastrutture critiche, giustizia, scuola) a garantire robustezza, accuratezza e cybersicurezza durante l’intero ciclo di vita, e la “prompt injection” è uno dei test che i fornitori devono dimostrare di aver affrontato. La sanzione massima arriva al 7% del fatturato globale o 35 milioni di euro, prendendo la cifra più alta; decorrenza agosto 2026 per i nuovi sistemi, agosto 2027 per il legacy.
NIS2 carica sul CIO e sui vertici aziendali la responsabilità diretta degli incidenti di security. Vigente in Italia da gennaio 2026, apre la strada a sanzione penale individuale per il responsabile in caso di breach AI documentato e non gestito, oltre alla sanzione aziendale. ACN ha pubblicato a febbraio 2026 le “Linee Guida AI Security” che recepiscono il framework ENISA e includono un assessment specifico sulla “prompt injection” per la PA, mentre AGID aggiorna i criteri di qualificazione del cloud PA per inserire l’AI Security tra i requisiti tecnici. Il quadro è coordinato dall’ISAC Italia di ACN e si intreccia con gli obblighi di reporting NIS2 sotto la responsabilità del board.
La “prompt injection” diventa così un problema legale prima che tecnico. Un incidente che esfiltra dati clienti tramite un agente connesso al CRM scatena un cortocircuito normativo tra notifica al Garante, segnalazione ACN sotto NIS2 e conformità AI Act, e la velocità di risposta che la legge richiede mal si concilia con la natura silenziosa di molti attacchi “low signal-to-noise”.
Difese che non esistono, mitigation che vanno fatte
Le contromisure disponibili sono parziali e nessuno finge il contrario. Il filtering intercetta i pattern noti ma scivola sui payload nuovi; lo “structured output” forza schemi rigidi, il “principle of least privilege” applicato agli agenti limita il danno quando l’iniezione passa. Sul fronte vendor il panorama è affollato: NeMo Guardrails di Nvidia, Lakera Guard, Prompt Shields dentro Azure AI Content Safety, Constitutional AI di Anthropic in fase di training, Granite Guardian di IBM. Il consenso industria è esplicito: difesa in profondità a strati, niente silver bullet.
Anthropic dichiara nei propri documenti pubblici che non esiste un fix definitivo e che ogni release introduce nuove combinazioni da monitorare. La trasparenza dovrebbe vaccinare i compratori dalle promesse di silver bullet che circolano in alcune presentazioni vendor. I protocolli MCP aggiungono un nuovo strato di esposizione: ogni server connesso è un canale di istruzioni potenziale, e l’inventario degli MCP attivi in molte aziende non è ancora gestito come asset di sicurezza.
Il costo non è teorico. IBM nel Cost of a Data Breach 2025 stima un costo medio di 4,88 milioni di dollari per i breach AI-correlati. La casistica 2025 dà sostanza: codice sorgente Samsung trapelato in chat ChatGPT, agente Disney dirottato con post non autorizzati, deploy di un chatbot Bank of America bloccato dopo un penetration test che ha identificato 18 vettori di iniezione. In Italia nessun caso pubblico dichiarato, ma una survey KPMG stima che il 35% delle grandi imprese abbia gestito internamente un “AI incident” senza comunicarlo.
Il mercato dietro la pressione è esploso. Gartner stima 52 miliardi di dollari spesi globalmente in AI Security nel 2026, con una crescita del 185% anno su anno trainata dai financial services. L’Italia si ferma a 110 milioni di euro per la stessa survey KPMG: una quota residuale che non riflette il rischio regolatorio.
Nessun fix definitivo, solo strati di mitigation da combinare con disciplina.
Una superficie che si compra prima della governance per gestirla
La “prompt injection” rimane al primo posto perché è la conseguenza diretta dell’architettura LLM, in cui istruzioni e dati condividono lo stesso canale di input. Il problema non è una vulnerabilità da patchare ma una proprietà del paradigma, e ogni soluzione futura sarà una stratificazione di mitigazioni. Le aziende che oggi corrono a integrare agenti nei flussi enterprise stanno comprando una superficie d’attacco scalabile prima di aver costruito la governance per gestirla.
La compliance tripla italiana trasforma ogni incidente in un problema legale prima che operativo, e il tempo fra esfiltrazione e rilevamento gioca contro chi non ha messo a terra monitoring e kill switch sugli agenti. Chi delega il pagamento di una fattura a un agente senza vincoli sul tetto di spesa e lista bianca dei destinatari scopre il prezzo quando un attacker sposta denaro su un IBAN mai validato.
Il consiglio operativo è meno glamour della demo che convince il board, però regge: monitoring di tutte le interazioni agente-tool, “principle of least privilege” applicato sul serio, conferma umana sulle azioni irreversibili, audit periodico degli MCP connessi. La velocità di adozione che molti dashboard premiano è esattamente la metrica sbagliata, perché premia chi corre prima di chi corre bene. Gartner mette la “prompt injection” al primo posto da due anni e continuerà a farlo finché qualcuno non riscriverà il modo in cui i modelli ricevono istruzioni. Nel frattempo la difesa è disciplina e scelte di perimetro, non prodotto da comprare.
#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Sara Romano
Source link



