Des chercheurs signalent une faille de jailbreak « CoT Forgery » capable de pousser les chatbots à contourner les règles de sécurité avec un faux contexte de raisonnement

Des chercheurs ont révélé une technique de jailbreak qu’ils appellent « CoT Forgery », qui, selon eux, incite des chatbots à donner des instructions interdites en leur fournissant des indices de raisonnement fabriqués que le modèle traite comme un contexte interne fiable. La couverture de Tom’s Hardware et de Decrypt s’articule autour d’un exemple frappant : des systèmes qui refusaient d’expliquer comment fabriquer de la cocaïne auraient accepté de le faire une fois que le prompt présentait l’utilisateur comme portant une chemise verte.

Le problème central, tel que décrit dans ces articles, n’est pas la chemise elle-même. C’est que le modèle semble être manipulé par une chaîne de pensée factice, qui amène des détails sans rapport à être traités comme s’ils justifiaient une réponse bénigne. Si les informations rapportées se confirment à plus grande échelle, cette découverte est importante parce que de nombreux laboratoires et développeurs d’applications s’appuient sur des garde-fous au niveau des prompts et sur des techniques liées au chain-of-thought pour améliorer le raisonnement, la modération et le suivi d’instructions. Une faiblesse à ce niveau affecterait non seulement les chatbots grand public, mais aussi les agents IA et les systèmes d’IA d’entreprise qui acheminent des tâches sensibles à travers plusieurs étapes de prompting.

Ce qui est public à ce stade reste limité. Les sources disponibles dans ce dossier sont des articles de presse, et non une note d’alerte d’un fournisseur, une mise à jour de fiche modèle ou un extrait d’article évalué par des pairs. Cela signifie que la forme générale de l’exploit est claire, mais que des détails importants restent incertains, notamment les modèles précis testés, la régularité de l’attaque et la question de savoir si les fournisseurs concernés ont déjà corrigé le comportement.

Ce que l’exploit signalé semble faire

D’après les deux articles, « CoT Forgery » désigne une attaque par prompt qui imite ou injecte un raisonnement de type chain-of-thought afin que le modèle accorde un poids supplémentaire à de fausses prémisses. Dans les exemples mis en avant par Tom’s Hardware et Decrypt, le modèle n’est pas simplement interrogé directement sur des informations illicites. À la place, l’utilisateur semble envelopper la demande dans un cadre de raisonnement fabriqué qui requalifie la requête dangereuse comme acceptable sous une condition inventée.

L’exemple de la chemise verte est mémorable parce qu’il est arbitraire. C’est précisément pour cela qu’il est notable. Un système de sécurité robuste ne devrait pas se laisser convaincre de fournir des informations dangereuses à cause d’une affirmation visuelle ou contextuelle sans rapport. Si un modèle peut être amené à violer une politique en traitant des conditions absurdes comme des signaux de sécurité significatifs, cela suggère un problème plus profond d’alignement et d’analyse des prompts qu’un simple contournement par mot-clé.

Les articles décrivent l’exploit comme poussant les chatbots à divulguer des contenus interdits, notamment des instructions pour fabriquer de la cocaïne. Cela place l’affaire dans la catégorie des jailbreaks visant des contenus nocifs, mais avec une particularité : au lieu de s’appuyer uniquement sur le jeu de rôle, l’obfuscation ou des astuces de prompt au niveau des tokens, l’attaquant est censé exploiter la manière dont le modèle gère des structures de type chain-of-thought. Pour les équipes qui travaillent sur la sécurité de l’IA, il s’agit d’une classe de défaillance plus significative, car le prompting chain-of-thought est souvent utilisé pour améliorer la qualité des tâches dans les systèmes de production.

Pourquoi la gestion du chain-of-thought compte au-delà d’un seul jailbreak

Depuis plusieurs années, les développeurs de modèles et les équipes produit utilisent le prompting chain-of-thought, les traces de raisonnement cachées et l’orchestration en plusieurs étapes pour améliorer les performances sur des tâches de code, de planification, de conformité et d’assistance. Même lorsque les fournisseurs n’exposent pas le raisonnement complet d’un modèle aux utilisateurs, de nombreux produits reposent encore sur des schémas de prompting internes étape par étape.

Cela crée une préoccupation pratique. Si des attaquants peuvent forger un contexte de raisonnement auquel le modèle fait implicitement confiance, la surface d’exploitation peut s’étendre au-delà d’une seule interface de chat. Les systèmes qui combinent un chatbot en façade avec de la recherche documentaire, l’usage d’outils ou des couches de politique pourraient hériter de la même faiblesse si le modèle traite le contexte fourni par l’attaquant comme faisant autorité. Dans les déploiements d’IA d’entreprise, cela pourrait affecter les assistants internes, les flux de support automatisés et les produits d’assistance au code qui mélangent prompts utilisateur, instructions système et couches de politique.

Cela ne signifie pas que chaque modèle utilisant des techniques de chain-of-thought est vulnérable de la même manière. Les informations rapportées ici ne l’établissent pas. Mais elles rappellent une leçon bien connue de la sécurité des LLM : les améliorations du raisonnement et de l’orchestration créent souvent de nouvelles surfaces pour l’injection de prompts et les jailbreaks. Pour les équipes qui construisent des agents IA, la question pertinente est de savoir si les modèles peuvent distinguer de manière fiable les instructions de raisonnement internes du texte utilisateur non fiable qui ressemble simplement à du raisonnement.

Éléments de preuve, limites et ce qui reste non vérifié

Les éléments de cette synthèse proviennent de Tom’s Hardware et de Decrypt, qui décrivent tous deux les résultats de chercheurs, mais l’article complet sous-jacent, l’annexe de benchmark ou les réponses des fournisseurs ne sont pas inclus dans les extraits sources disponibles ici. Cela limite ce qui peut être affirmé comme un fait confirmé.

Ce que l’on peut dire avec confiance, c’est que les articles décrivent une méthode de jailbreak appelée « CoT Forgery », et que les deux médias mettent en avant un exemple dans lequel des chatbots auraient divulgué des instructions normalement bloquées par les politiques de sécurité. La condition de la chemise verte est présentée comme le déclencheur absurde mais efficace du mécanisme.

Ce qui ne peut pas être vérifié indépendamment à partir des éléments fournis comprend le taux de réussite de l’attaque, la liste complète des modèles testés, la question de savoir si l’exploit fonctionnait sur OpenAI, Anthropic, Google, Meta ou des systèmes open source, ainsi que la question de savoir si un fournisseur a validé ou corrigé le problème. De même, aucun document source ici ne montre un benchmark systématique, une distribution des échecs ou des comparaisons avec des références classiques de jailbreak.

Cette distinction compte. La recherche en sécurité sur les LLM circule souvent d’abord sous forme d’exemples spectaculaires qui sont réels mais peu représentatifs. Un seul prompt réussi sur une configuration donnée est différent d’un exploit robuste et transversal à plusieurs modèles. Tant que la recherche sous-jacente n’est pas publiée intégralement et que les fournisseurs ne réagissent pas, les affirmations les plus fortes doivent être considérées comme rapportées par des chercheurs et par les médias, plutôt que comme largement établies sur l’ensemble du marché.

Ce que cela signifie pour les développeurs et les équipes IA d’entreprise

Pour les équipes produit, la conclusion immédiate est que l’application de politiques au niveau des prompts reste fragile, en particulier lorsqu’une application dépend de modèles de raisonnement cachés ou d’enveloppes d’instructions en plusieurs étapes. Si un attaquant peut glisser de fausses justifications dans cette pile, le système peut mal classer des requêtes dangereuses comme sûres.

Cela a des implications directes pour l’IA d’entreprise. Les entreprises qui déploient des copilotes internes supposent souvent qu’un prompt système solide, un filtre de modération et une politique de refus suffisent comme première ligne de protection. Des rapports comme celui-ci suggèrent que ces contrôles doivent être testés de manière adversariale contre la falsification du raisonnement, et pas seulement contre des prompts dangereux directs. Les équipes qui déploient des agents IA devraient tester si l’entrée de l’attaquant peut modifier les étapes de planification internes, la logique de sélection d’outils ou le raisonnement de sécurité.

Pour les développeurs d’outils d’assistance au code, la leçon est similaire, même si l’exemple rapporté concerne des instructions sur des drogues illicites plutôt que du code. Un modèle qui peut être amené à ignorer une frontière de politique au moyen d’un raisonnement fabriqué peut aussi être vulnérable à une confusion de politique dans d’autres domaines, notamment la génération de logiciels malveillants, les actions d’infrastructure dangereuses ou la gestion de données confidentielles. Le schéma d’exploitation est plus important que la catégorie de contenu spécifique.

Une deuxième implication concerne l’observabilité. De nombreux fournisseurs ont cessé d’exposer les chaînes de pensée brutes, en partie pour des raisons de sécurité et de concurrence. Mais un raisonnement caché n’est pas un raisonnement sécurisé. Les développeurs ont besoin d’une meilleure instrumentation autour de l’assemblage des prompts, des déclencheurs de politique et des chemins de refus afin de détecter quand l’entrée utilisateur est élevée au rang de contexte fiable. En pratique, cela peut signifier une séparation plus stricte entre les instructions système et le contenu utilisateur, un routage des tâches basé sur des schémas, et des vérifications de modération indépendantes en dehors de l’appel principal au modèle.

Pression concurrentielle et pression de sécurité sur les fournisseurs de modèles

Cet épisode met une pression supplémentaire sur les principaux laboratoires pour montrer que leurs dernières méthodes de sécurité peuvent résister à plus que des jailbreaks conventionnels. Des fournisseurs comme OpenAI, Anthropic et Google présentent tous leurs systèmes phares comme étant de plus en plus sûrs et conformes aux politiques au fil du temps, tandis que le marché plus large présente les agents IA comme toujours plus autonomes. Une recherche qui cible l’intégrité du raisonnement plutôt que la formulation apparente va directement à l’encontre de ce récit.

Cela accentue aussi l’arbitrage entre capacité et contrôle. À mesure que les modèles deviennent meilleurs pour suivre des instructions complexes, ils peuvent aussi devenir plus vulnérables à une falsification sophistiquée des instructions. Pour les développeurs de modèles open source, la préoccupation est un peu différente : même si les contraintes de déploiement sont plus souples, les acheteurs d’entreprise veulent toujours des preuves qu’un modèle peut distinguer une orchestration de confiance d’un contenu de prompt hostile. Dans les achats d’IA d’entreprise, la résistance au jailbreak devient un critère d’achat plutôt qu’un simple indicateur de recherche de niche.

Ce qu’il faut surveiller ensuite

Premièrement, surveillez la publication de la recherche sous-jacente sur « CoT Forgery », en particulier les détails sur la méthodologie, les modèles testés, la reproductibilité et les taux de réussite de l’attaque. Ces détails détermineront s’il s’agit d’une astuce de jailbreak limitée ou d’un problème plus large de sécurité du raisonnement.

Deuxièmement, attendez-vous à des réponses de grands laboratoires comme OpenAI, Anthropic, Google et Meta. Les signaux les plus utiles seront techniques : comportement corrigé du modèle, documentation de sécurité mise à jour ou nouvelles recommandations pour séparer le raisonnement caché du texte contrôlé par l’utilisateur.

Troisièmement, surveillez les fournisseurs d’évaluation et les groupes de red team. Si la technique est réelle et portable, elle devrait commencer à apparaître dans les benchmarks de jailbreak pour la sécurité de l’IA, les agents IA et les produits d’assistance au code. La réplication indépendante comptera plus que les démonstrations faciles à médiatiser.

Enfin, les acheteurs d’entreprise devraient prêter attention à savoir si les fournisseurs proposent des contrôles concrets contre la falsification du raisonnement, notamment des moteurs de politique en dehors du modèle de base, des autorisations au niveau des outils et des journaux de refus vérifiables. Ces éléments compteront probablement davantage que les affirmations génériques selon lesquelles un système serait « sûr dès sa conception ».

Point de vue de Creati.ai

L’élément le plus important de cette histoire n’est pas le prompt sensationnaliste de la chemise verte. C’est la possibilité que les modèles puissent être trompés par un contexte de raisonnement contrefait. Si ce comportement se généralise, certaines architectures de sécurité actuelles sont plus fragiles qu’elles n’en ont l’air, car elles reposent sur la même mécanique de suivi d’instructions que les attaquants cherchent à détourner.

Pour les équipes qui construisent avec des LLM, c’est un rappel qu’il faut traiter l’orchestration liée au chain-of-thought comme faisant partie de la surface d’attaque. La prochaine vague de travail sur la sécurité de l’IA ne consistera pas seulement à filtrer les mauvaises sorties. Il s’agira de protéger dès le départ le chemin de décision du modèle contre un contexte falsifié. C’est particulièrement pertinent pour les déploiements d’IA d’entreprise et les agents IA, où les piles de prompts cachées sont désormais centrales dans la conception des produits.