AI News

研究者らは、「CoT Forgery」と呼ぶジェイルブレイク手法を公開した。これは、モデルが信頼できる内部コンテキストとして扱う、捏造された推論の手がかりを与えることで、チャットボットに禁止された手順を答えさせるとされる。Tom’s Hardware と Decrypt の報道は、印象的な例を中心に伝えている。コカインの作り方を説明することを拒んでいたシステムが、プロンプトでユーザーが緑のシャツを着ていると示した途端に応じたというのだ。

これらの報道によれば、核心的な問題はシャツそのものではない。偽造された chain-of-thought 風の設定によって、無関係な詳細が、無害な回答を正当化するかのように扱われてしまう点にあるようだ。もしこの報告が広範な再現に耐えるなら、この発見は重要だ。というのも、多くの研究機関やアプリケーション開発者は、推論、モデレーション、指示追従を改善するために、プロンプト層の安全策や chain-of-thought 関連の技術に依存しているからだ。そこに弱点があれば、消費者向けチャットボットだけでなく、AI agents や、複数段階のプロンプト処理を通じて機密タスクを扱う企業向け AI システムにも影響が及ぶ。

現時点で公開されている内容は限定的だ。この話題で入手できるソースは、ベンダーの助言文書でも、model card の更新でも、査読付き論文の抜粋でもなく、報道記事である。つまり、攻撃のおおまかな形は明らかだが、どの特定モデルがテストされたのか、攻撃がどれほど一貫して機能したのか、影響を受けた提供事業者がすでに挙動を修正しているのか、といった重要な詳細はまだ不確かだ。

報告された攻撃は何をするように見えるのか

両報道によれば、「CoT Forgery」は、chain-of-thought に似た推論を模倣または挿入し、モデルに誤った前提へより大きな重みを与えさせるプロンプト攻撃を指す。Tom’s Hardware と Decrypt が取り上げた例では、モデルに違法情報を直接求めているわけではない。代わりに、ユーザーは捏造された推論フレームで要求を包み込み、安全でない要求を、ある架空の条件の下では許容されるものとして言い換えているように見える。

緑のシャツの例が印象的なのは、それが恣意的だからだ。まさにそのために注目に値する。堅牢な安全システムであれば、無関係な視覚的・文脈的主張のせいで危険な情報の提供を説得されるべきではない。もしモデルが、ナンセンスな条件を意味のある安全シグナルとして扱うことでポリシー違反へ誘導されうるなら、それは単なるキーワード回避よりも深刻なアラインメントおよびプロンプト解析の問題を示している。

報道では、この攻撃がコカインの製造手順のような禁じられた内容をチャットボットに開示させるものだと説明されている。そのため、これは有害コンテンツ系のジェイルブレイクに分類されるが、ひとひねりある。ロールプレイ、難読化、トークンレベルのプロンプトトリックだけに頼るのではなく、攻撃者はモデルの chain-of-thought 風の足場の扱いを悪用しているとされる。AI 安全に取り組む開発者にとって、これはより重大な失敗類型だ。なぜなら、chain-of-thought プロンプトは本番システムでタスク品質を高めるためによく使われるからだ。

なぜ chain-of-thought の扱いが 1 つのジェイルブレイク以上に重要なのか

ここ数年、モデル開発者やアプリケーションチームは、chain-of-thought プロンプト、隠れた推論トレース、複数段階のオーケストレーションを用いて、コーディング、計画、コンプライアンス、サポート業務の性能を改善してきた。提供事業者がモデルの完全な推論をユーザーに公開しない場合でも、多くの製品は内部で段階的なプロンプトパターンに依存している。

そこに実務上の懸念が生じる。攻撃者が、モデルが暗黙に信頼する推論コンテキストを偽造できるなら、攻撃面は単一のチャットインターフェースを超えて広がる可能性がある。フロントエンドのチャットボットに検索、ツール利用、ポリシーラッパーを組み合わせたシステムは、攻撃者が供給したコンテキストを権威あるものとみなすなら、同じ弱点を引き継ぐかもしれない。enterprise AI の導入環境では、社内アシスタント、自動サポート業務、ユーザープロンプトとシステム指示、ポリシーレイヤーを混在させるコーディング支援製品に影響が及ぶ可能性がある。

これは、chain-of-thought 技術を使うすべてのモデルが同じように脆弱だという意味ではない。今回の報道は、その点を立証していない。しかし、LLM セキュリティではおなじみの教訓を示している。推論やオーケストレーションの改善は、多くの場合、新たなプロンプトインジェクションやジェイルブレイクの攻撃面を生む。AI agents を構築するチームにとって重要なのは、モデルが内部の推論指示と、推論のように見えるだけの信頼できないユーザーテキストを確実に区別できるかどうかだ。

証拠、限界、そして未検証の点

この話題の根拠は Tom’s Hardware と Decrypt にあり、いずれも研究者の結果を伝えているが、基となる完全な論文、ベンチマーク付録、または提供事業者の見解は、ここで参照できるソース抜粋には含まれていない。そのため、確定事実として述べられる内容には限界がある。

確実に言えるのは、報道が「CoT Forgery」と呼ばれるジェイルブレイク手法を説明しており、両メディアとも、通常なら安全ポリシーで遮断されるはずの指示をチャットボットが開示したとされる例を強調していることだ。緑のシャツという条件は、その仕組みのばかばかしいが有効なトリガーとして提示されている。

一方で、提供された証拠からは独立に検証できない点もある。攻撃の成功率、テストされたモデルの完全な一覧、攻撃が OpenAI、Anthropic、Google、Meta、あるいはオープンソースシステム全体で機能したかどうか、そしてベンダーがすでに問題を確認または修正したかどうかは不明だ。同様に、系統的なベンチマーク、失敗分布、標準的なジェイルブレイク基準との比較を示すソースもここにはない。

この区別は重要だ。LLM に関するセキュリティ研究は、実在するが代表例ではない劇的な例として最初に広まることが多い。1 つの構成に対する 1 回の成功したプロンプトは、堅牢なクロスモデル攻撃とは異なる。基礎研究が完全な形で公開され、提供事業者が応答するまでは、最も強い主張も、市場全体で広く確立されたものではなく、研究者報告およびメディア報道として扱うべきだ。

ビルダーと企業向け AI チームにとっての意味

製品チームにとっての当面の示唆は、プロンプト層でのポリシー適用が依然として脆弱であり、特にアプリケーションが隠れた推論テンプレートや複数段階の指示ラッパーに依存している場合にはなおさらだ。攻撃者がそのスタックに偽の正当化を紛れ込ませることができれば、システムは有害な要求を安全だと誤分類するかもしれない。

これは enterprise AI に直接的な影響を及ぼす。社内 copilot を導入する企業の多くは、強力な system prompt、モデレーションフィルター、拒否ポリシーがあれば、第一線の防御として十分だと考えがちだ。今回のような報道は、そうした制御には、直接的な有害プロンプトだけでなく、推論の偽造に対する敵対的テストも必要だと示唆している。AI agents を出荷するチームは、攻撃者入力が内部の計画ステップ、ツール選択ロジック、安全性の根拠を変えてしまえないかを検証すべきだ。

coding assistant ツールの開発者にとっても、報告された例が違法な薬物の指示でありコードではないという違いはあれど、教訓は同じだ。偽造された推論によって 1 つのポリシー境界を無視するよう説得されたモデルは、マルウェア生成、安全でないインフラ操作、機密データの取り扱いなど、他の領域でもポリシー混乱に脆弱かもしれない。重要なのは特定の内容カテゴリではなく、攻撃のパターンそのものだ。

2 つ目の示唆は可観測性に関するものだ。多くの提供事業者は、安全性や競争上の理由から、raw な chain-of-thought 出力の公開をやめつつある。しかし、隠れた推論は安全な推論と同じではない。開発者は、プロンプトの組み立て、ポリシートリガー、拒否経路について、より良い計測を行い、ユーザー入力がどの時点で信頼されたコンテキストへ格上げされているか検出できるようにする必要がある。実務上は、system 指示と user コンテンツのより厳密な分離、スキーマベースのタスクルーティング、メインのモデル呼び出しとは別の独立したモデレーションチェックを意味するかもしれない。

モデル提供事業者に対する競争と安全性の圧力

この出来事は、主要ラボに対して、最新の安全対策が従来型のジェイルブレイク以上に耐えられることを示す圧力を高める。OpenAI、Anthropic、Google などの提供事業者は、フラッグシップシステムが時間とともにより安全で、よりポリシー順守的になると位置づけている一方で、市場全体は AI agents をますます自律的だと売り込んでいる。表層の文言ではなく推論の整合性を狙う研究は、その物語に真っ向から逆らう。

また、能力と制御のトレードオフも際立たせる。モデルが複雑な指示に従うのが上手になるほど、巧妙な指示偽造に対しても脆弱になる可能性がある。オープンソースモデル開発者にとって懸念は少し異なる。導入制約が緩くても、企業の購買担当は、信頼できるオーケストレーションと敵対的なプロンプトコンテンツを分離できる証拠を求めるからだ。enterprise AI の調達では、ジェイルブレイク耐性がニッチな研究指標ではなく、購入基準になりつつある。

今後注目すべき点

第一に、基礎となる「CoT Forgery」研究の公開を待ちたい。特に、手法、テスト対象モデル、再現性、攻撃成功率の詳細が重要だ。そうした情報によって、これが狭いジェイルブレイク手法なのか、より広い推論セキュリティ問題なのかが決まる。

第二に、OpenAI、Anthropic、Google、Meta といった主要ラボの反応を見たい。最も有用なシグナルは技術的なものだ。修正済みのモデル挙動、更新された安全性ドキュメント、あるいは隠れた推論とユーザー制御テキストを分離するための新しいガイダンスだろう。

第三に、評価ベンダーやレッドチームグループにも注目したい。この手法が本物で移植可能なら、AI 安全、AI agents、coding assistant 製品のジェイルブレイクベンチマークに現れ始めるはずだ。独立再現は、見出し映えするデモよりも重要になる。

最後に、企業の買い手は、ベンダーが推論偽造に対する具体的な制御を提供しているかに注意すべきだ。ベースモデルの外側にあるポリシーエンジン、ツールレベルの権限、監査可能な拒否ログなどが含まれる。そうした機能は、「設計段階から安全」といった一般論よりも、今後は重要になる可能性が高い。

Creati.ai の視点

この話題で最も重要なのは、センセーショナルな緑のシャツのプロンプトではない。モデルが偽物の推論コンテキストにだまされうる可能性だ。もしその挙動が一般化するなら、現在の安全アーキテクチャの一部は見た目ほど強くないことになる。攻撃者が破ろうとしているのと同じ指示追従機構に依存しているからだ。

LLM を使って構築するチームにとって、これは chain-of-thought 関連のオーケストレーションを攻撃対象領域の一部として扱うべきだという警告だ。次世代の AI 安全は、悪い出力をフィルタリングすることだけではない。まず第一に、モデルの意思決定経路を偽造コンテキストから守ることになるだろう。これは特に、隠れたプロンプトスタックが製品設計の中心になっている enterprise AI 導入や AI agents で重要だ。

フィーチャー
AirMusic
AirMusic
AirMusic.aiは、テキストプロンプトからスタイルやムードのカスタマイズ、ステム(分離トラック)出力をサポートする高品質なAI音楽トラックを生成します。
AdsCreator.com
AdsCreator.com
任意のウェブサイト URL から、Meta、Google、Stories 向けのブランドに沿った洗練された広告クリエイティブを即座に生成します。
KiloClaw
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
Atoms
Atoms
マルチエージェント自動化により、コーディング不要で数分以内にフルスタックアプリやWebサイトを構築するAI駆動プラットフォーム。
VoxDeck
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
Refly.ai
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
Skywork.ai
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
Pippit
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
Diagrimo
Diagrimo
Diagrimoはテキストをカスタマイズ可能なAI生成の図表やビジュアルに瞬時に変換します。
BGRemover
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
SuperMaker AI Video Generator
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
Elser AI
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
FineVoice
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
Qoder
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
Flowith
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
FixArt AI
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
ブラウザベースのAIが、あらゆる2D画像やテキストプロンプトを30秒で3Dモデルに変換。GLB、OBJ、STL、PLYを書き出し可能—無料
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
Palix AI
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
Funy AI
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
SkyGen Plus
SkyGen Plus
画像、動画、音楽を一つのスムーズなワークフローで生成できる、マルチモデルAI制作プラットフォームです。
Image 2 AI
Image 2 AI
OpenAI搭載の画像生成・編集ツール。フォトリアルなビジュアル、正確な文字描画、UIモックアップに対応。
SharkFoto
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
Imagvio AI
Imagvio AI
正確な編集、生成、そして一貫性重視のクリエイティブなワークフローを備えた、AI 搭載の画像・動画制作プラットフォーム。
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
リアルな人物を出力する無料のAI動画ジェネレーター。透かしなし、商用利用権付き。
APIMaster
APIMaster
フィンガープリントで検証された本物のLLM。1つのAPI、公式価格より最大70%オフ。
Gemini Omni - Video Generator
Gemini Omni - Video Generator
会話型編集、マルチモーダル参照、一貫性のある短尺生成のためのAI動画作成プラットフォーム。
Questie AI - Game Companion
Questie AI - Game Companion
画面を見て、音声で会話し、プレイをリアルタイムでコーチしてくれる AI ゲーミングコンパニオン。
OnlyDoc Summarizer
OnlyDoc Summarizer
OnlyDocの無料PDF要約ツールは、PDFを読み込み、要点を整理された見やすい要約にまとめます
Scavio AI
Scavio AI
AIエージェントがWeb、ショッピング、動画、ソーシャルデータを構造化して取得できる、リアルタイムのマルチプラットフォーム検索API。
Iara Chat
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
paperclaw
paperclaw
数分で出版対応の科学図表、ダイアグラム、ポスター、編集可能なSVGを生成するAIワークスペース。
Media.io Free AI Image Generator
Media.io Free AI Image Generator
Media.io を使って、テキストプロンプトや参考画像から AI ビジュアルを作成できます。SNS、マーケティング、Eコマースなどに活用可能です。
Seedance 2.0 Video AI
Seedance 2.0 Video AI
プロンプト、画像、参考クリップから、同期オーディオ付きの映画のような1080p動画を生成します。
whatslove.ai
whatslove.ai
あなたの性格に合わせてアドバイス、会話のきっかけ、デートのアイデアをカスタマイズする AI 恋愛コーチ。
CreateMemorial
CreateMemorial
CreateMemorialは、大切な人を偲ぶために、ご家族が永く残るオンライン追悼サイトや葬儀用スライドショー動画を作成できるサービスです。
StitchPilot.ai
StitchPilot.ai
画像を変換し、刺繍データをプレビューし、機械フォーマットを確認できるブラウザベースの AI 刺繍ツール。
Mubert AI
Mubert AI
Mubertは、AI音楽プラットフォームで、ロイヤリティフリーのトラックを数秒で生成、拡張、リミックス、ボーカル化できます。
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
セルフィーから、テーマ別スタイル、素早い生成、プライベートなHDダウンロード付きで、リアルなAIカップルポートレートを作成できます。
AIsa
AIsa
AIsa は、OpenAI 互換のアクセスを通じて、AI エージェントにモデル、スキル、API、支払いへの単一ゲートウェイを提供します。
AnimeShorts
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
HappyHorseAIStudio
HappyHorseAIStudio
テキスト、画像、参照素材、動画編集に対応したブラウザベースのAI動画生成ツール。
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
WriteHybrid は、AI 生成テキストを自然に書き換えながら、AI 検出の回避を支援する AI ヒューマナイザー兼検出ツールです。
AI Pet Video Generator
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
1つのキーで最先端の生成モデルをより低コストで提供する統合AI動画APIです。
Ampere.SH
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
AdMakeAI
AdMakeAI
ブランド向けに高パフォーマンスな静止画広告とUGC広告を数秒で作成するAI広告ジェネレーターです。
NerdyTips
NerdyTips
AI 搭載のサッカー予測プラットフォーム。世界中のリーグにわたって、データに基づく試合のヒントを提供します。
Flaq AI Media API
Flaq AI Media API
Flaq AI は、画像、動画、LLM 搭載ワークフローを生成するための統合 AI メディア API プラットフォームで、安定したモデルを提供します
AI Gift finder by wishwave
AI Gift finder by wishwave
数百の人気ストアにある実在の商品から、共有できるウィッシュリストを作成するAIギフト検索ツール。
InstantChapters
InstantChapters
Instant Chaptersを使って、魅力的な書籍の章を瞬時に生成します。
VidMage
VidMage
AI技術を使用して、写真や動画で顔を簡単に入れ替えます。
Claude API
Claude API
Claude API for Everyone
Gptimg2 AI
Gptimg2 AI
テキスト、画像、参照素材から画像や動画を作成できる、オールインワンの AI スタジオです。
insmelo AI Music Generator
insmelo AI Music Generator
プロンプト、歌詞、またはアップロードを約1分で洗練されたロイヤリティフリーの曲に変換するAI駆動の音楽ジェネレーターです。
WhatsApp AI Sales
WhatsApp AI Sales
WABot は、リアルタイムのスクリプト、翻訳、インテント検出を提供する WhatsApp 向けの AI セールス コパイロットです。
GPT Image 2 Online
GPT Image 2 Online
フォトリアルな結果、正確なテキスト描画、強力なプロンプト追従を備えたAI画像生成・編集ツールです。
Kirkify
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
MusicGPT
MusicGPT
シンプルなプロンプトから楽曲、効果音、ボーカル、オーディオ編集を生成するAI音楽プラットフォームです。
Lyria3 AI
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
Text to Music
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
AIToHuman
AIToHuman
AI が生成した文章を、自然で人間らしい文章に瞬時に書き換える無料の AI テキスト人間化ツールです。
wan 2.7-image
wan 2.7-image
正確な顔、配色、テキスト、ビジュアルの一貫性を制御できるAI画像生成ツールです。
HookTide
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
EaseMate AI
EaseMate AI
チャット、文章作成、学習サポート、画像作成、動画生成を1つのブラウザベースのプラットフォームで提供するオールインワンAIアシスタントです。
BeatMV
BeatMV
楽曲を映画のようなミュージックビデオに変換し、AIで音楽を作成するウェブベースのAIプラットフォームです。
Anijam AI
Anijam AI
Anijamは、アイデアをエージェント型の動画制作によって洗練されたストーリーへと変える、AIネイティブのアニメーションプラットフォームです。
Paper Banana
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
Create WhatsApp Link
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
Tome AI PPT
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
GLM Image
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。
UNI-1 AI
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Gobii
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
WhatsApp Warmup Tool
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
GenPPT.AI
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
Wan 2.7
Wan 2.7
プロ仕様のAIビデオモデル。精密な動作制御とマルチビューの一貫性を実現します。
Hitem3D
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
happy horse AI
happy horse AI
テキストや画像から同期した動画と音声を生成するオープンソースのAI動画生成ツールです。
Seedance 20 Video
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
AI FIRST
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
Manga Translator AI
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
TextToHuman
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
Video Sora 2
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。

研究者が、偽の推論コンテキストでチャットボットを安全規則の先へ押し出せる「CoT Forgery」ジェイルブレイクを報告

研究者によると、「CoT Forgery」ジェイルブレイクは、チャットボットに禁止された薬物の手順を明かさせることができ、chain-of-thoughtベースの安全性に新たな弱点を露呈している。