ClawTrap は、OpenClaw のような自律 Web エージェントに対し、実際の通信経路へ Man-in-the-Middle 攻撃を差し込んで安全性を調べる評価基盤です。静的サンドボックスや単純なプロンプト注入では見えにくい、ネットワーク層の改ざん耐性を測ることを目的にしています。 核心は、クラウド側で動く OpenClaw と研究者のローカル環境の間に Tailscale と mitmdump ベースの中継層を置き、Static HTML Replacement、Iframe Popup Injection、Dynamic Content Modification の3種類の攻撃を再現可能な形で実行できるようにした点です。 v1 の実験は大規模ベンチマークではなく代表的な実ブラウジングデモが中心ですが、弱いモデルほど改ざんされた観測を信用しやすく、強いモデルほど「ネットワーク改ざんかもしれない」と原因帰属しながら安全側へ倒れることを示しています。
Static HTML Replacement、Iframe Popup Injection、Dynamic Content Modification の3種類の攻撃を再現可能な形で実行できるようにした点です。既存の安全ベンチマークは、間接プロンプト注入や Web UI 上の欺瞞的表示をかなり前進させましたが、多くは依然として sandboxed and static な設定にとどまっています。論文は、今日の Web エージェントが live networked observations に依存している以上、レスポンスが transit 中に書き換えられる脅威を無視すると、実配備時の最重要リスクを見逃すと指摘します。つまり、いま足りないのは「画面内のテキストをどう読むか」だけではなく、「そのテキストが本物の観測か」をどこまで評価できるかです。
ClawTrap の提案は、OpenClaw 専用に近いかたちで組まれた MITM 攻撃・監査フレームワークです。クラウド上の OpenClaw インスタンスに proxy adapter を巻き、Tailscale の P2P トンネルで研究者のローカルノードへトラフィックを中継し、ローカル側で mitmdump ベースの interception engine が通信を監視・改変します。これにより、実ブラウジングを続けたまま request path と response path の両方で攻撃を差し込めます。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related