継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

SokoBench:大規模言語モデルにおける長期的な計画と推論の評価

SokoBenchは、大規模言語モデル(LLM)の長期的な計画能力を評価するために、倉庫番パズルを直線的な廊下状のマップに簡略化した新しいベンチマークである。空間的な複雑さを排除し、純粋に手順の長さ(ホライゾン)がモデルの内部的な推論や状態保持に与える影響を測定した結果、解決に25手以上を要する課題では正確性が急激に低下することが判明した。 外部の計画言語(PDDL)ツールを組み合わせるLLM-Modulo手法を導入しても性能向上は限定的であり、モデル内部の空間推論や逐次的な論理構築における根本的な限界が浮き彫りになった。本研究は、現在の推論モデルが単純な記号操作の積み重ねにおいてさえ、長期的な一貫性を維持できないというシステム的な欠陥を明らかにしている。 最新の推論モデルであっても、分岐のない単純な環境においてステップ数が増加するだけで論理的な破綻を来すことが示されており、これはモデル内部での状態保持や計数能力がステップ数の増加に伴って指数関数的に劣化するためである。この結果は、現在のモデルが持つ前方計画の容量には物理的または構造的な限界が存在することを示唆している。

5845 字
読む →

Floresが間違ってBloomzするとき:機械翻訳評価における言語方向間の汚染

大規模言語モデル(LLM)の評価において、学習データにテストセットが混入する「データ汚染」が深刻な問題となっており、特に多言語翻訳では、ある言語方向の学習が未学習の言語方向にまで影響を及ぼす「方向間汚染」が発生していることが明らかになった。

7070 字
読む →

進化戦略はLLMにおける破滅的忘却を引き起こす

進化戦略(ES)は、従来の勾配ベースの手法であるGRPOと比較して、数学や推論タスクにおいて同等の性能を達成しつつ、メモリ消費を大幅に抑えられる可能性を秘めています。 しかし、本研究の分析により、ESを用いた学習はモデルが既に持っていた既存の知識を急速に失わせる「破滅的忘却」を引き起こし、特定のタスクに特化する一方で汎用性が著しく低下することが判明しました。 この忘却の原因は、ESによるパラメータ更新がGRPOに比べて1000倍も大きなノルムを持ち、かつモデル全体にわたる高密度な変更を加えることで、既存の知識構造を破壊してしまう点にあると結論付けられています。

6005 字
読む →

オーケストレーターとしてのLLM:推薦システムのための制約遵守型マルチエージェント最適化

従来の推薦システムは、精度向上とビジネス上の制約(公平性や在庫露出など)の両立を「ソフトな罰則」として扱ってきたため、実運用で制約違反が頻発するという課題を抱えていました。 本研究が提案する「DualAgent-Rec」は、LLMを最適化のオーケストレーター(調整役)として配置し、精度を追求するエージェントと多様性を探索するエージェントを動的に制御する二重構造のフレームワークです。 Amazonのデータセットを用いた実験では、ビジネス制約を100%遵守しながら、既存の手法と比較してパレート・ハイパーボリュームを4〜6%向上させ、実用的な精度と多様性のトレードオフを実現しました。

6354 字
読む →

AgenticSCR:未成熟な脆弱性検出のための自律的エージェント型セキュアコードレビュー

AgenticSCRは、開発者がコードをコミットする前の段階で、不完全かつ文脈に依存する「未成熟な脆弱性」を検出するために設計された、自律的な意思決定とツール呼び出し能力を備えたAIエージェントフレームワークである。

5895 字
読む →

TS-Debate:ゼロショット時系列推論のためのマルチモーダル協調ディベート

大規模言語モデル(LLM)を用いた時系列データ推論において、数値の正確性の欠如やモダリティ間の干渉、そして体系的な統合の難しさが大きな課題となっている。本研究では、テキスト、視覚、数値の各モダリティに特化した専門エージェントが協調して議論を行う、ゼロショット時系列推論のための新しいフレームワーク「TS-Debate」を提案する。 この手法は、事前にドメイン知識を抽出した上で、各エージェントが独自の視点から観察と推論を行い、その主張をコード実行や数値検索ツールを備えたレビュー担当者が検証する仕組みを持つ。検証・対立・較正(VCC)プロトコルにより、モダリティ間の矛盾を明示的に解消し、数値的なハルシネーションを抑制しながら、信頼性の高い回答を導き出す。 3つの公開ベンチマークに含まれる20のタスクで評価を行った結果、既存の強力なベースラインと比較して大幅な性能向上を達成し、特に時系列データの構造理解と数値的忠実度の両立において優れた成果を示した。タスク固有の微調整を必要とせず、推論時の構造化された対話のみで、複雑な時系列推論を堅牢に実行できることが実証された。

6032 字
読む →

構造的および論理的洗練を用いたマルチエージェントによる手続き型グラフ抽出

自然言語からワークフローを抽出する際、従来の大型言語モデルでは構造的な不備や論理的な誤解が生じやすいという課題に対し、本研究ではグラフ構築、構造シミュレーション、論理整合性確認の3段階を繰り返すマルチエージェントフレームワーク「text2flow」を提案しました。

5793 字
読む →

SHIELD:LLMリソース枯渇攻撃に対する自己修復型エージェント防御フレームワーク

大規模言語モデル(LLM)の計算リソースを過剰に消費させ、サービス停止(DoS)を引き起こす「スポンジ攻撃」に対し、3段階の防御パイプラインと自己修復機能を備えたマルチエージェントフレームワーク「SHIELD」が提案されました。

6573 字
読む →

SNR-Edit: インバージョン不要なフローベース編集のための構造認識型ノイズ補正

近年のStable Diffusion 3やFLUXなどのフローベース生成モデルを用いた画像編集において、既存の「反転不要(Inversion-Free)」な手法は、ソース画像の軌跡構築に固定ガウスノイズを使用するため、実際の画像分布との間に「構造的・確率的不一致」が生じ、編集過程での軌跡のズレや背景の崩れといった構造劣化を招くという課題があった。 この問題を解決するために提案された「SNR-Edit」は、セグメンテーションモデル(SAM2)と幾何学的エンコーディング(RoPE)を用いて画像固有の構造的制約を初期ノイズに注入する「構造認識型ノイズ整流」機構を導入したトレーニング不要のフレームワークであり、確率的なノイズ成分を実際の画像の潜在的な位置に固定することで編集軌跡の漂流を抑制するものである。 PIE-Benchおよび新たに構築されたSNR-Benchを用いたSD3とFLUX上での評価において、SNR-Editは既存のFlowEditやDNAEditと比較してPSNRやSSIMなどのピクセルレベル指標およびVLMベースのスコアで優れた性能を示し、画像1枚あたり約1秒の追加コストで非編集領域の構造を忠実に保持しながらテキスト指示に忠実な編集を実現したことが実証された。

7083 字
読む →

CoReTab:コード駆動型推論によるマルチモーダル表理解の向上

従来のマルチモーダル表理解データセットは短答形式が主流であり、多段階の推論過程を学習できないため、モデルの回答精度が低く、最終的な答えに至るまでのプロセスが不透明であるという課題が存在していました。

6565 字
読む →