継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

プロトコルの破壊:ツール統合型LLMエージェントにおけるモデルコンテキストプロトコル仕様のセキュリティ分析とプロンプトインジェクションの脆弱性

Anthropicが2024年11月に発表したModel Context Protocol(MCP)は、AIエージェントと外部ツールを統合する標準規格として急速に普及していますが、権限証明の欠如、送信元認証のないサンプリング機能、および複数サーバー間での暗黙的な信頼伝播という3つの根本的な設計上の脆弱性が存在することが本研究の分析によって明らかになりました。 研究チームは、既存のセキュリティベンチマークをMCP環境に適応させた評価フレームワーク「PROTOAMP」を開発し、847件の攻撃シナリオを用いて実験を行った結果、MCPのアーキテクチャ自体が攻撃の成功率を非MCP環境と比較して23%から41%も増幅させていることを定量的に示し、その危険性を証明しました。 これらの深刻な脆弱性への対策として、後方互換性を持つプロトコル拡張案「ATTESTMCP」が提案され、暗号化による権限証明やメッセージ認証、送信元のタグ付けを導入することで、攻撃成功率を52.8%から12.4%へと大幅に低減しつつ、追加される遅延を実用的な範囲内に抑えられることが実証されました。

7035 字
読む →

パーソナライズされた生成におけるユーザープライバシーの向上:サーバー側で生成された推測に対するクライアント側検索拡張型の修正

大規模言語モデル(LLM)のパーソナライズにおいて、ユーザーの機密情報をクラウドサーバーに一切開示することなく、高品質な回答を生成するための新しい対話型フレームワーク「P3」が提案されました。 この手法は、サーバー側の強力なモデルが回答候補を生成し、ユーザー手元の小規模モデルが個人のプロフィールに基づき内容を検証・修正する「推測、検証、修正」のプロセスを繰り返すことで、プライバシーと性能を両立させます。 実験では、個人情報を完全に公開した場合の9割以上の性能を維持しつつ、情報漏洩を最小限に抑え、従来のローカルモデル単体や非パーソナライズモデルを平均で7.4%から9%上回る精度を達成することに成功しました。

6499 字
読む →

マルチモーダルRAGプライバシーの体系的な評価

マルチモーダル検索拡張生成(mRAG)システムは、外部データベースの画像を参照して回答精度を高める一方で、特定の画像がデータベースに含まれているかを特定するメンバーシップ推論攻撃(MIA)や、画像に付随する機密テキストを抽出する画像キャプション取得(ICR)攻撃に対して極めて脆弱であることが本研究の体系的な評価によって明らかになりました。 実験の結果、データベース内の画像が回転、クロップ、ノイズ付加などの加工を受けている現実的な条件下でも、攻撃者は高い精度で情報の有無を判定可能であり、特に視覚的に特徴が明確なデータセットでは機密性の高いメタデータが逐語的に漏洩するリスクが実証されました。 この脆弱性は、プロンプト内での画像の配置順序やリランカーの設定によって変動し、入力画像を検索結果の前に配置することで漏洩を抑制できる可能性が示唆されましたが、依然として根本的な保護メカニズムの欠如が大きな課題として残っており、今後の安全なシステム開発に向けた重要な知見を提供しています。

5800 字
読む →

Faramesh:自律型エージェントシステムのためのプロトコル非依存な実行制御プレーン

Farameshは、自律型エージェントがインフラ操作や資金移動などの現実的な影響を及ぼす際に、実行の直前で強制的に認可を判断する「アクション認可境界(AAB)」を導入する画期的な制御プレーンである。

6959 字
読む →

FARM:コンセプトドリフト下における少数ショット適応型マルウェアファミリ分類

マルウェアの進化に伴う統計的性質の変化(コンセプトドリフト)に対応するため、Windows PEファイルを対象とした新しい分類フレームワーク「FARM」が提案されました。この手法はトリプレット・オートエンコーダーを用いてデータを識別性の高い潜在空間に投影し、教師なし学習であるDBSCANクラスタリングと動的なしきい値設定を組み合わせることで、未知の検体や変化した挙動を正確に検知します。 検知されたドリフト検体はバッファに一時的に蓄積され、少数のラベル付きサンプルからクラスを代表する「プロトタイプ」を生成する少数ショット学習によって、モデル全体の大規模な再学習を待つことなく迅速に新しいマルウェアファミリーへと適応することが可能です。これにより、従来の静的なモデルが直面していた、時間の経過とともに分類精度が大幅に低下するという深刻な課題を解決し、動的な脅威環境下でも高い信頼性を維持します。 実装実験の結果、既存ファミリーの性質変化(共変量ドリフト)に対して分類性能が5.6%向上し、未知のファミリーに対しても少数ショット適応のみで0.85、その後の再学習後には0.94という高いF1スコアを達成しました。本フレームワークは、ラベル付けのコストを抑えつつ、Windows環境における膨大な新種マルウェアに対して効率的かつ継続的に防御能力を更新できる実用的なアプローチを提供し、サイバーセキュリティの実務におけるモデルの老化問題を緩和します。

5960 字
読む →

CanaryBench:クラスタレベルの会話要約におけるプライバシー漏洩のストレステスト

CanaryBenchは、大規模言語モデル(LLM)の会話データをトピックごとにクラスタ化して要約する際、個人の特定につながる情報(PII)がどの程度漏洩するかを測定する新しいベンチマークである。実験の結果、元の会話を直接引用する「抽出型」の要約手法を用いると、特定の識別文字列(カナリア)を含むクラスタの96.

6820 字
読む →

インテリジェントエージェントを用いた大規模言語モデルアプリケーション向けOWASP Top 10の緩和

大規模言語モデル(LLM)の普及に伴い、OWASPが定義する「LLMのためのTop 10」のようなセキュリティ脆弱性への対策が急務となっており、データの完全性、機密性、およびサービスの可用性を保護するための新しい防御策が求められています。

5804 字
読む →

MalURLBench:Web URL処理時のエージェントの脆弱性を評価するベンチマーク

大規模言語モデル(LLM)を基盤としたWebエージェントが、巧妙に偽装された悪意のあるURLを正しく識別できず、安全でないウェブサイトへのアクセスを許容してしまう深刻な脆弱性を評価するための初のベンチマーク「MalURLBench」を提案した。

6112 字
読む →

GUIGuard:プライバシー保護型GUIエージェントのための汎用フレームワークに向けて

GUIエージェントが画面情報を外部サーバーへ送信する際の深刻なプライバシー漏洩リスクを解決するため、認識・保護・実行の3段階で構成される汎用フレームワーク「GUIGuard」を提案した。この手法は、機密情報の特定と加工をユーザーのローカルデバイスで行い、加工済みの安全な情報のみを強力なリモートモデルへ送信することで、高度な推論能力とプライバシー保護を両立させるものである。 1万枚以上のスクリーンショットを含む大規模ベンチマーク「GUIGuard-Bench」を構築し、既存の最新モデルでもプライバシー情報の認識精度が極めて低いという深刻な現状を明らかにした。Android環境で13.3%、PC環境で1.4%という結果は、現在のAIが何を守るべきかを正しく判断できていないことを示しており、実用化に向けた最大の障壁が認識精度にあることを浮き彫りにした。 機密情報を隠蔽しつつタスクの実行に必要な意味情報を維持する保護戦略を導入することで、ユーザーのプライバシー保護と自動化タスクの成功を高い次元で両立できることを実証した。本研究は、プライバシー認識の精度向上こそが実用的なGUIエージェント構築における最大のボトルネックであることを示し、信頼できるハイブリッド型サービスの実現に向けた具体的な技術的指針と評価基盤を提供している。

6321 字
読む →

$α^3$-SecBench:6GネットワークにおけるLLMベースのUAVエージェントのためのセキュリティ、レジリエンス、および信頼性に関する大規模評価スイート

次世代の6Gネットワーク環境において、大規模言語モデル(LLM)を搭載した自律型無人航空機(UAV)エージェントのセキュリティ、回復力、および信頼性を包括的に測定するための初の大規模評価スイート「$\alpha^3$-SecBench」が開発されました。

6929 字
読む →