継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

プロトコルの破壊:ツール統合型LLMエージェントにおけるモデルコンテキストプロトコル仕様のセキュリティ分析とプロンプトインジェクションの脆弱性

Anthropicが2024年11月に発表したModel Context Protocol(MCP)は、AIエージェントと外部ツールを統合する標準規格として急速に普及していますが、権限証明の欠如、送信元認証のないサンプリング機能、および複数サーバー間での暗黙的な信頼伝播という3つの根本的な設計上の脆弱性が存在することが本研究の分析によって明らかになりました。 研究チームは、既存のセキュリティベンチマークをMCP環境に適応させた評価フレームワーク「PROTOAMP」を開発し、847件の攻撃シナリオを用いて実験を行った結果、MCPのアーキテクチャ自体が攻撃の成功率を非MCP環境と比較して23%から41%も増幅させていることを定量的に示し、その危険性を証明しました。 これらの深刻な脆弱性への対策として、後方互換性を持つプロトコル拡張案「ATTESTMCP」が提案され、暗号化による権限証明やメッセージ認証、送信元のタグ付けを導入することで、攻撃成功率を52.8%から12.4%へと大幅に低減しつつ、追加される遅延を実用的な範囲内に抑えられることが実証されました。

7035 字
読む →

条件付き遷移推定とオンライン行動アライメントによる汎化可能な模倣学習に向けて

本研究は、行動ラベルのない観察データのみから学習を行う新しい模倣学習手法「UfO(Unsupervised Imitation Learning from Observation)」を提案し、従来の手法が抱えていた「行動ベースの教師あり学習への依存」や「特定の状態には単一の最適行動しかないという誤った仮定」を排除することに成功した。 UfOは、方策モデルと生成モデルを相互に最適化する「再構成ステージ」と、状態の差分を利用して行動を微調整する「敵対的ステージ」の二段階構成を採用しており、これにより教師データの行動を盲目的に模倣するのではなく、環境の因果構造を理解した上での柔軟な学習を可能にしている。 5つの標準的なシミュレーション環境を用いた検証において、UfOは教師モデルの性能を上回るスコアを記録しただけでなく、標準偏差を最小限に抑えることで未知のシナリオに対する極めて高い汎化性能を実証し、観察のみによる無人模倣学習の新たな基準を確立した。

5963 字
読む →

継続的に調整されるLLMクエリ生成によるリアルタイムトレンド予測

検索トラフィックが少ない環境では、従来のクエリ量に基づくトレンド検出が困難であるため、投稿内容から直接検索クエリを生成して合成シグナルを作るRTTPフレームワークが提案されました。 このシステムは、継続学習型の大規模言語モデル(CL-LLM)と、新旧のデータを適切に混合して学習させるMix-Policy DPOという新しい最適化手法を採用しており、モデルの知的な推論能力を維持しながら最新の話題に適応し続けることが可能です。 FacebookやMeta AIの製品規模で導入された結果、トレンド検出の精度が相対的に91.4%向上し、クエリ生成の正確性も従来手法より19%改善しており、ユーザーが検索を開始する前の極めて早い段階でトレンドを予測できることが実証されました。

5834 字
読む →

パーソナライズされた生成におけるユーザープライバシーの向上:サーバー側で生成された推測に対するクライアント側検索拡張型の修正

大規模言語モデル(LLM)のパーソナライズにおいて、ユーザーの機密情報をクラウドサーバーに一切開示することなく、高品質な回答を生成するための新しい対話型フレームワーク「P3」が提案されました。 この手法は、サーバー側の強力なモデルが回答候補を生成し、ユーザー手元の小規模モデルが個人のプロフィールに基づき内容を検証・修正する「推測、検証、修正」のプロセスを繰り返すことで、プライバシーと性能を両立させます。 実験では、個人情報を完全に公開した場合の9割以上の性能を維持しつつ、情報漏洩を最小限に抑え、従来のローカルモデル単体や非パーソナライズモデルを平均で7.4%から9%上回る精度を達成することに成功しました。

6499 字
読む →

言語モデルにおける地位の階層構造

人間の社会組織に普遍的な「地位の階層構造」が言語モデル間でも発生するかを検証するため、感情分類タスクを用いたマルチエージェント環境での実験が行われ、能力が同等のモデル間では専門家やリーダーといった明示的な地位の割り当てによって、下位モデルが上位モデルに従う「譲歩」の非対称性が35ポイント確認された。

5974 字
読む →

AIコーディングエージェントはいかにコードを修正するか:GitHubプルリクエストの大規模研究

AIエージェントと人間によるGitHubのプルリクエストを大規模に比較した結果、エージェントは人間よりも小規模かつ局所的なコード修正を行う傾向があり、特にコミット数において顕著な差(Cliff’s $\delta=0.5429$)があることが判明しました。

5848 字
読む →

GenAI-Net:自動化された生体分子ネットワーク設計のための生成AIフレームワーク

GenAI-Netは、特定の動的機能を持つ生体分子ネットワークの設計を自動化する生成AIフレームワークであり、反応を提案するAIエージェントとシミュレーションによる評価をループ状に結合することで、複雑な設計課題を効率的に解決するシステムである。

6249 字
読む →

Claude Codeを用いたプロンプト駆動開発:Ringプログラミング言語のための完全なTUIフレームワークの構築

本研究は、Claude Code(Opus 4.5)を活用したプロンプト駆動開発(PDD)により、Ringプログラミング言語用の高度なターミナルユーザーインターフェース(TUI)フレームワークを構築した過程を報告するものである。

5643 字
読む →

知能はグラウンディングを必要とするが、身体性は必要としない

知能の成立には、記号を外部世界の参照先と結びつけて意味を付与する「グラウンディング(記号接地)」が不可欠であるが、物理的な肉体を持つ「身体性」は必須ではない。 知能を「動機付け」「信号予測」「因果関係の理解」「経験からの学習」という4つの特性の集合として定義し、これらはデジタル環境のエージェントでも達成可能であることを論じている。 大規模言語モデル(LLM)などの進展を背景に、物理世界に限定されない一貫した規則を持つ環境との相互作用こそが知能の本質であり、身体性は知能の十分条件ではあっても必要条件ではないと結論付けている。

6066 字
読む →

ユーザーフィードバックに導かれたLLMによるプログラミング回答の人間整合的な強化

Stack Overflow等の技術Q&Aサイトでは、回答に対する有益な指摘の約3分の1が放置されており、情報の陳腐化や不完全さが深刻な課題となっているが、本研究ではLLMを用いてユーザーのフィードバックを解釈・統合し、コードと解説文の両方を人間のように改善するツール「AUTOCOMBAT」を提案し、その有効性を検証した。 58名の専門家による評価では、84.5%が導入や推奨を支持し、手動作業の削減やフィードバックの正確な反映、解説の明快さにおいて極めて高い有用性が確認された。 本研究は、LLMを単なるコード生成器としてではなく、分散した人間の知見を統合して継続的な改善を行う「応答性の高いパートナー」として位置づけ、知識ベースの信頼性と研究における有用性を高めるための新しいパラダイムを提示している。

5637 字
読む →