AI Models Vulnerable to Adaptive Attacks, Study Finds
Quick Look
- Uno studio dell'AI4I rivela che i modelli AI avanzati, pur bloccando la maggior parte degli attacchi, restano vulnerabili a tecniche adattive.
- I metodi tradizionali sono inefficaci, ma gli attacchi che apprendono dalle risposte del modello continuano a ottenere risultati dannosi.
AI-generated summary
Why It Matters
Uno studio dell'AI Security Lab dell'AI4I ha analizzato la vulnerabilità dei modelli di Intelligenza Artificiale avanzati agli attacchi esterni, utilizzando la piattaforma HackAgent per simulare tentativi di jailbreak.
Anche i sistemi di Intelligenza Artificiale più avanzati restano vulnerabili ad alcuni attacchi esterni. È quanto emerge dallo studio "Measuring the Residual Jailbreak Surface of Frontier Large Language Models" dell'Ai Security Lab dell'Istituto Italiano di Intelligenza Artificiale (AI4I), guidato da Nicola Franco.
Attraverso la piattaforma open source HackAgent, i ricercatori hanno effettuato centinaia di migliaia di tentativi di jailbreak contro due modelli linguistici avanzati, utilizzando 7.826 intenti dannosi in dieci categorie di rischio, dalla cybersicurezza alla disinformazione. I risultati mostrano che i modelli bloccano la maggior parte degli attacchi: oltre l'88% nel caso di Claude Opus 4.8 e oltre il 93% per Fable 5.
Tuttavia, sono state individuate centinaia di risposte dannose ottenute tramite tecniche automatizzate.
Lo studio evidenzia inoltre che i tradizionali metodi di aggiramento basati su codifiche e artifici linguistici sono ormai in gran parte neutralizzati, mentre restano efficaci gli attacchi adattivi, capaci di apprendere dalle risposte del modello e modificare progressivamente la propria strategia.
"La sicurezza dei sistemi di Intelligenza Artificiale richiede valutazioni indipendenti, continue e basate su evidenze empiriche", afferma Franco. "Misurare la robustezza dei modelli in condizioni avversariali è una componente essenziale della governance dell'Ai e della fiducia necessaria per la sua adozione su larga scala".
Secondo i ricercatori, la sicurezza dell'Ia non può essere considerata acquisita una volta per tutte, ma richiede un processo continuo di verifica e miglioramento. Per Fabio Pammolli, sviluppare capacità autonome di valutazione dei sistemi di IA avanzati è "una componente essenziale della sovranità tecnologica" dell'Italia e dell'Europa.
Open Questions
- Quali specifiche tecniche adattive sono più efficaci?
- Come si possono sviluppare difese contro attacchi adattivi?
- Quali sono le implicazioni a lungo termine per la governance dell'IA?






