Il prompt injection non è un bug. È il genere.

Un bug si patcha. Un genere stabilisce cosa è possibile farci dentro. Dopo diciotto mesi spesi a cercare di togliere il prompt injection dagli LLM, il report OWASP del 2026 ha smesso di girarci attorno, non è un bug, è l'architettura. Due flussi di testo, un solo livello di fiducia. Matematica, non negligenza.

Cosa nasconde la metafora del patch

Il 24 marzo 2026 due versioni di LiteLLM, il gateway che sta sotto CrewAI, DSPy, Microsoft GraphRAG e gran parte degli stack agentici degni di nota, sono finite su PyPI con un payload a tre stadi. Furto di credenziali, movimento laterale in Kubernetes, backdoor persistente. Il vettore era un attaccante AI-driven, openclaw, che a monte aveva compromesso uno scanner Trivy e da lì aveva rubato le credenziali del maintainer del pacchetto. Le versioni avvelenate sono rimaste online tre ore. LiteLLM viene scaricato 3,4 milioni di volte al giorno.

Non è prompt injection da manuale, è la stessa verità architetturale un livello più in là. Quando modello e dati scorrono nello stesso tubo, ogni strato che il tubo tocca diventa parte del confine di fiducia. Lo scanner di sicurezza incluso. Soprattutto lo scanner.

Perché l'industria non può sistemare il difetto di fondo

I large language model ricevono istruzioni e dati non fidati come stesso stream di token. Non esiste un canale fuori banda che dica "questo viene dall'operatore, questo dal cliente, questo dal web". Sono due anni che la ricerca insegue il problema con input filter, fortezze di system prompt, validatori di output. Tutti riducono il rischio, nessuno elimina la causa. Simon Willison lo scrive da tre anni, e il report OWASP 2026 ha smesso di addolcire la lingua.

La superficie di difesa non è il modello. Non può esserlo.

Un bug prende un CVE, una fix, uno sprint. Un genere prende uno stack.

Dove vive davvero la difesa

La difesa vive nella harness. Sandbox, così se una tool call viene compromessa non esce dalla scatola. Whitelist degli strumenti, così il modello non può prendere in mano armi che non dovrebbe. Validazione dell'output, così anche un prompt injection riuscito deve far passare la sua conclusione da un cancello strutturato prima che qualcuno la creda. Budget di azioni, strategia di retry, percorso di fallback. La roba che non mette nessuno sulle slide commerciali perché non si fa vedere in demo.

Il 69% dei leader enterprise in una survey Okta del 2026 ha detto che la security sta rallentando l'adozione degli agent. È una risposta onesta, e va rigirata. Non è la security che rallenta l'adozione, è l'adozione che corre oltre lo stack di security. I board che finanziano gli agent non stanno finanziando la harness che li contiene, perché la harness non ha un logo e il modello sì.

Perché conta per il tuo business

Due implicazioni pratiche. La prima, in qualsiasi conversazione di procurement su un sistema agentic, chiedi cosa succede quando il modello prende un prompt injection. Se la risposta è "filtriamo l'input" stai comprando una cura da bug applicata a un problema di genere. Alzati e vai via. La seconda, se hai un agent in produzione oggi, la tua vera superficie d'attacco è la supply chain della harness, non quella del modello. Il caso LiteLLM non era un bug dell'LLM, era un pacchetto Python pushato da un attaccante AI-driven attraverso uno scanner avvelenato. Il cervello era a posto. È il corpo che ha fatto il breach.

Il modello lo vendono a tutti. Il genere è lo stesso per tutti. L'unica cosa che cambia è chi ha preso sul serio la gabbia.

— Pan