- i24NEWS
- Innov'Nation
- Quand la poésie permet de piéger les systèmes de sécurité de l’IA
Quand la poésie permet de piéger les systèmes de sécurité de l’IA
Des chercheurs en cybersécurité ont mis en évidence une faille préoccupante dans les systèmes de protection de l’intelligence artificielle.


Peut-on détourner l’intelligence artificielle par la seule force du style ? Selon des chercheurs en cybersécurité de l’université Sapienza de Rome, la réponse est oui. Leur étude met en lumière une méthode de contournement baptisée « poésie adverse », capable de pousser des modèles d’IA à produire des contenus pourtant interdits lorsqu’ils sont formulés de manière classique.
Le principe est simple : au lieu de poser une question directe — par exemple sur la fabrication d’armes, le piratage ou les cyberattaques — les chercheurs reformulent la requête sous forme de poèmes ou de vers métaphoriques. Cette variation stylistique suffirait, dans de nombreux cas, à désactiver partiellement les mécanismes de sécurité intégrés aux modèles. L’expérience a été menée sur 25 chatbots issus des principales familles d’IA génératives, notamment celles développées par OpenAI, Google et Meta.
Les résultats sont préoccupants. Selon l’équipe italienne, certaines amorces poétiques déclenchent des comportements à risque dans près de 90 % des cas. La méthode se révèle particulièrement efficace pour obtenir des informations sensibles liées aux cyberattaques, à l’extraction de données, au piratage de mots de passe ou à la création de logiciels malveillants. Plus alarmant encore, les chercheurs indiquent avoir obtenu des éléments relatifs à la construction d’armes nucléaires avec un taux de réussite compris entre 40 et 55 %.
Conclusion : la forme poétique, à elle seule, peut suffire à contourner les protocoles de sécurité actuels. Pour les auteurs de l’étude, cela révèle des limites structurelles dans les méthodes d’alignement et d’évaluation des modèles. « Lorsque les messages malveillants sont formulés en vers plutôt qu’en prose, les taux de réussite des attaques augmentent fortement », alertent-ils.
Les chercheurs appellent désormais à renforcer les dispositifs de contrôle et à repenser les critères d’évaluation de la sûreté des IA, afin d’éviter que ces outils ne deviennent, même involontairement, des vecteurs de contenus dangereux.