継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

R^3:LLMの強化学習のためのリプレイ、リフレクション、およびランキング報酬

大規模推論モデルの学習において、グループ内の報酬差が消失し学習が停滞する「アドバンテージの崩壊」を防ぐため、過去の履歴を活用するクロスコンテキスト・リプレイ(CCR)、失敗から学ぶインコンテキスト自己内省(ISR)、およびトークン単位のエントロピーに基づく構造的エントロピー・ランキング報酬(SERR)を統合した強化学習メカニズム「R^3」が提案されました。 DeepSeek-R1-Distill-Qwen-1.5Bおよび7Bをベースに数学ドメインで訓練した結果、1.5Bという小規模なモデルでありながらAIME 2024などの難関ベンチマークで従来の7Bクラスのモデルを凌駕する最先端の性能を達成し、同時に推論に必要なトークン数の削減にも成功しています。 本手法は、プロセスレベルの注釈に頼ることなく、外部的な介入と内部的な自己最適化を組み合わせることで、困難なタスクにおいても安定した学習信号を維持し、モデルが自身の過去の誤りから自律的に推論プロセスを洗練させることを可能にした画期的なフレームワークです。

6027 字
読む →

マルチモーダル大規模言語モデルの音声推論能力のためのベンチマーク

現在のマルチモーダル大規模言語モデル(MLLM)の音声評価指標は、話者識別や性別判定といった個別のタスクに偏っており、複数の音声情報を組み合わせて論理的に思考する「推論能力」を十分に測定できていない。

6226 字
読む →

AlignCoder:リポジトリレベルのコード補完に向けた検索とターゲット意図のアライメント

既存のコード生成モデルはリポジトリ固有の知識が不足しており、検索拡張生成(RAG)を用いてもクエリとターゲットコードの間に意味的な不一致が生じるという課題がありました。本研究が提案するAlignCoderは、複数の候補生成によってクエリを強化する仕組みと、強化学習を用いた検索モデルの訓練手法を導入することで、検索精度とコード補完の正確性を大幅に向上させます。実験の結果、CrossCodeEvalベンチマークにおいてベースラインを18.1%上回るEMスコアを達成し、多様なプログラミング言語やモデルに対して高い汎用性と優れた性能を持つことが実証されました。

6541 字
読む →

RvB:反復的なレッド・ブルー・ゲームによるAIシステム堅牢化の自動化

RvBは、大規模言語モデルの安全性を飛躍的に高めるために開発された、学習や微調整を一切必要としない革新的な自動堅牢化フレームワークであり、攻撃を担うレッドチームと防御を担うブルーチームが対話的に試行錯誤を繰り返す「不完全情報ゲーム」として設計されている。

6330 字
読む →

TokenSeek: インスタンスごとのトークン破棄によるメモリ効率の高いファインチューニング

大規模言語モデルのファインチューニングにおいて、メモリ消費の最大87%を占めるアクティベーションの課題を解決するため、各データの文脈と勾配情報から重要なトークンのみを選択して学習する「TOKENSEEK」が提案されました。 この手法は、Llama3.2 1Bにおいて元のメモリのわずか14.8%(2.

6366 字
読む →

Veri-Sure:正しいRTLコード生成のための時間的追跡と形式検証を備えた契約認識型マルチエージェントフレームワーク

大規模言語モデルを用いたRTL設計において、設計契約(Design Contract)を核としたマルチエージェントフレームワーク「VERI-SURE」を開発し、エージェント間での意図の乖離(セマンティック・ドリフト)を防ぐ仕組みを構築しました。

6188 字
読む →

エージェント的デザインパターン:システム理論的フレームワーク

基盤モデルを用いたエージェントAIは、ハルシネーションや推論能力の不足、そして場当たり的なシステム設計による信頼性の低さが大きな課題となっており、既存の設計パターンも理論的根拠に欠け実装が困難な状況にあります。

6183 字
読む →

GAVEL:アクティベーション監視を通じたルールベースの安全性に向けて

大規模言語モデル(LLM)の内部状態を「認知要素(CE)」という解釈可能な最小単位に分解し、それらを論理ルールで組み合わせることで、高度な安全監視を実現するフレームワーク「GAVEL」が提案されました。

6268 字
読む →

CASTER: タスク効率的なルーティングのためのコンテキスト認識戦略によるマルチエージェント・オーケストレーションにおけるコストパフォーマンスの壁の打破

マルチエージェント・システム(MAS)において、すべてのタスクに高性能なモデルを割り当てると膨大なコストが発生し、逆に安価なモデルでは論理的な脆弱性によりタスク全体が失敗するという「コストパフォーマンスのパラドックス」を解決するため、軽量なニューラルルーターであるCASTERが提案されました。

6318 字
読む →

反復的RAGが理想的な根拠情報を凌駕するとき:科学分野におけるマルチホップ質問応答の診断的研究

本研究は、科学分野の複雑なマルチホップ質問応答において、反復的な検索と推論のループが、理想的な静的根拠(ゴールドコンテキスト)を上回る性能を発揮することを解明しました。11種類の最新大規模言語モデルを用いた実験の結果、反復的RAGは非推論特化型モデルにおいて最大25.

7314 字
読む →