AI研究 2026-03-21 タグ: paper, arxiv

ClawTrap：OpenClaw を実ネットワーク上で監査する MITM レッドチーミング基盤

ClawTrap は、OpenClaw のような自律 Web エージェントに対し、実際の通信経路へ Man-in-the-Middle 攻撃を差し込んで安全性を調べる評価基盤です。静的サンドボックスや単純なプロンプト注入では見えにくい、ネットワーク層の改ざん耐性を測ることを目的にしています。核心は、クラウド側で動く OpenClaw と研究者のローカル環境の間に Tailscale と mitmdump ベースの中継層を置き、Static HTML Replacement、Iframe Popup Injection、Dynamic Content Modification の3種類の攻撃を再現可能な形で実行できるようにした点です。 v1 の実験は大規模ベンチマークではなく代表的な実ブラウジングデモが中心ですが、弱いモデルほど改ざんされた観測を信用しやすく、強いモデルほど「ネットワーク改ざんかもしれない」と原因帰属しながら安全側へ倒れることを示しています。

論文図解

TL;DR（結論）

ClawTrap は、OpenClaw のような自律 Web エージェントに対し、実際の通信経路へ Man-in-the-Middle 攻撃を差し込んで安全性を調べる評価基盤です。静的サンドボックスや単純なプロンプト注入では見えにくい、ネットワーク層の改ざん耐性を測ることを目的にしています。
核心は、クラウド側で動く OpenClaw と研究者のローカル環境の間に Tailscale と mitmdump ベースの中継層を置き、Static HTML Replacement、Iframe Popup Injection、Dynamic Content Modification の3種類の攻撃を再現可能な形で実行できるようにした点です。
v1 の実験は大規模ベンチマークではなく代表的な実ブラウジングデモが中心ですが、弱いモデルほど改ざんされた観測を信用しやすく、強いモデルほど「ネットワーク改ざんかもしれない」と原因帰属しながら安全側へ倒れることを示しています。

なぜこの問題か

既存の安全ベンチマークは、間接プロンプト注入や Web UI 上の欺瞞的表示をかなり前進させましたが、多くは依然として sandboxed and static な設定にとどまっています。論文は、今日の Web エージェントが live networked observations に依存している以上、レスポンスが transit 中に書き換えられる脅威を無視すると、実配備時の最重要リスクを見逃すと指摘します。つまり、いま足りないのは「画面内のテキストをどう読むか」だけではなく、「そのテキストが本物の観測か」をどこまで評価できるかです。

核心：何を提案したのか

ClawTrap の提案は、OpenClaw 専用に近いかたちで組まれた MITM 攻撃・監査フレームワークです。クラウド上の OpenClaw インスタンスに proxy adapter を巻き、Tailscale の P2P トンネルで研究者のローカルノードへトラフィックを中継し、ローカル側で mitmdump ベースの interception engine が通信を監視・改変します。これにより、実ブラウジングを続けたまま request path と response path の両方で攻撃を差し込めます。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。