Peut-on détourner l’intelligence artificielle par la seule force du style ? Selon des chercheurs en cybersécurité de l’université Sapienza de Rome, la réponse est oui. Leur étude met en lumière une méthode de contournement baptisée « poésie adverse », capable de pousser des modèles d’IA à produire des contenus pourtant interdits lorsqu’ils sont formulés de manière classique.

Le principe est simple : au lieu de poser une question directe — par exemple sur la fabrication d’armes, le piratage ou les cyberattaques — les chercheurs reformulent la requête sous forme de poèmes ou de vers métaphoriques. Cette variation stylistique suffirait, dans de nombreux cas, à désactiver partiellement les mécanismes de sécurité intégrés aux modèles. L’expérience a été menée sur 25 chatbots issus des principales familles d’IA génératives, notamment celles développées par OpenAI, Google et Meta.

Video poster — Quand la poésie permet de piéger les systèmes de sécurité de l’IA

Les résultats sont préoccupants. Selon l’équipe italienne, certaines amorces poétiques déclenchent des comportements à risque dans près de 90 % des cas. La méthode se révèle particulièrement efficace pour obtenir des informations sensibles liées aux cyberattaques, à l’extraction de données, au piratage de mots de passe ou à la création de logiciels malveillants. Plus alarmant encore, les chercheurs indiquent avoir obtenu des éléments relatifs à la construction d’armes nucléaires avec un taux de réussite compris entre 40 et 55 %.

Conclusion : la forme poétique, à elle seule, peut suffire à contourner les protocoles de sécurité actuels. Pour les auteurs de l’étude, cela révèle des limites structurelles dans les méthodes d’alignement et d’évaluation des modèles. « Lorsque les messages malveillants sont formulés en vers plutôt qu’en prose, les taux de réussite des attaques augmentent fortement », alertent-ils.

Les chercheurs appellent désormais à renforcer les dispositifs de contrôle et à repenser les critères d’évaluation de la sûreté des IA, afin d’éviter que ces outils ne deviennent, même involontairement, des vecteurs de contenus dangereux.

Cet article a reçu 0 commentaires

Quand la poésie permet de piéger les systèmes de sécurité de l’IA

Commentaires