タグ: cs.AI | Cog AI Archive

AI研究 2026-01-29

R^3：LLMの強化学習のためのリプレイ、リフレクション、およびランキング報酬

大規模推論モデルの学習において、グループ内の報酬差が消失し学習が停滞する「アドバンテージの崩壊」を防ぐため、過去の履歴を活用するクロスコンテキスト・リプレイ（CCR）、失敗から学ぶインコンテキスト自己内省（ISR）、およびトークン単位のエントロピーに基づく構造的エントロピー・ランキング報酬（SERR）を統合した強化学習メカニズム「R^3」が提案されました。 DeepSeek-R1-Distill-Qwen-1.5Bおよび7Bをベースに数学ドメインで訓練した結果、1.5Bという小規模なモデルでありながらAIME 2024などの難関ベンチマークで従来の7Bクラスのモデルを凌駕する最先端の性能を達成し、同時に推論に必要なトークン数の削減にも成功しています。本手法は、プロセスレベルの注釈に頼ることなく、外部的な介入と内部的な自己最適化を組み合わせることで、困難なタスクにおいても安定した学習信号を維持し、モデルが自身の過去の誤りから自律的に推論プロセスを洗練させることを可能にした画期的なフレームワークです。

6027 字

読む →

AI研究 2026-01-29

マルチモーダル大規模言語モデルの音声推論能力のためのベンチマーク

現在のマルチモーダル大規模言語モデル（MLLM）の音声評価指標は、話者識別や性別判定といった個別のタスクに偏っており、複数の音声情報を組み合わせて論理的に思考する「推論能力」を十分に測定できていない。

6226 字

読む →

AI研究 2026-01-29

AlignCoder：リポジトリレベルのコード補完に向けた検索とターゲット意図のアライメント

既存のコード生成モデルはリポジトリ固有の知識が不足しており、検索拡張生成（RAG）を用いてもクエリとターゲットコードの間に意味的な不一致が生じるという課題がありました。本研究が提案するAlignCoderは、複数の候補生成によってクエリを強化する仕組みと、強化学習を用いた検索モデルの訓練手法を導入することで、検索精度とコード補完の正確性を大幅に向上させます。実験の結果、CrossCodeEvalベンチマークにおいてベースラインを18.1%上回るEMスコアを達成し、多様なプログラミング言語やモデルに対して高い汎用性と優れた性能を持つことが実証されました。

6541 字

読む →

AI研究 2026-01-29

RvB：反復的なレッド・ブルー・ゲームによるAIシステム堅牢化の自動化

RvBは、大規模言語モデルの安全性を飛躍的に高めるために開発された、学習や微調整を一切必要としない革新的な自動堅牢化フレームワークであり、攻撃を担うレッドチームと防御を担うブルーチームが対話的に試行錯誤を繰り返す「不完全情報ゲーム」として設計されている。

6330 字

読む →

AI研究 2026-01-29

TokenSeek: インスタンスごとのトークン破棄によるメモリ効率の高いファインチューニング

大規模言語モデルのファインチューニングにおいて、メモリ消費の最大87%を占めるアクティベーションの課題を解決するため、各データの文脈と勾配情報から重要なトークンのみを選択して学習する「TOKENSEEK」が提案されました。この手法は、Llama3.2 1Bにおいて元のメモリのわずか14.8%（2.

6366 字

読む →

AI研究 2026-01-29

Veri-Sure：正しいRTLコード生成のための時間的追跡と形式検証を備えた契約認識型マルチエージェントフレームワーク

大規模言語モデルを用いたRTL設計において、設計契約（Design Contract）を核としたマルチエージェントフレームワーク「VERI-SURE」を開発し、エージェント間での意図の乖離（セマンティック・ドリフト）を防ぐ仕組みを構築しました。

6188 字

読む →

AI研究 2026-01-29

エージェント的デザインパターン：システム理論的フレームワーク

基盤モデルを用いたエージェントAIは、ハルシネーションや推論能力の不足、そして場当たり的なシステム設計による信頼性の低さが大きな課題となっており、既存の設計パターンも理論的根拠に欠け実装が困難な状況にあります。

6183 字

読む →

AI研究 2026-01-29

GAVEL：アクティベーション監視を通じたルールベースの安全性に向けて

大規模言語モデル（LLM）の内部状態を「認知要素（CE）」という解釈可能な最小単位に分解し、それらを論理ルールで組み合わせることで、高度な安全監視を実現するフレームワーク「GAVEL」が提案されました。

6268 字

読む →

AI研究 2026-01-28

CASTER: タスク効率的なルーティングのためのコンテキスト認識戦略によるマルチエージェント・オーケストレーションにおけるコストパフォーマンスの壁の打破

マルチエージェント・システム（MAS）において、すべてのタスクに高性能なモデルを割り当てると膨大なコストが発生し、逆に安価なモデルでは論理的な脆弱性によりタスク全体が失敗するという「コストパフォーマンスのパラドックス」を解決するため、軽量なニューラルルーターであるCASTERが提案されました。

6318 字

読む →

AI研究 2026-01-28 長文

反復的RAGが理想的な根拠情報を凌駕するとき：科学分野におけるマルチホップ質問応答の診断的研究

本研究は、科学分野の複雑なマルチホップ質問応答において、反復的な検索と推論のループが、理想的な静的根拠（ゴールドコンテキスト）を上回る性能を発揮することを解明しました。11種類の最新大規模言語モデルを用いた実験の結果、反復的RAGは非推論特化型モデルにおいて最大25.

7314 字

読む →

生成AI研究を、要点から追う。

最新の記事

R^3：LLMの強化学習のためのリプレイ、リフレクション、およびランキング報酬

マルチモーダル大規模言語モデルの音声推論能力のためのベンチマーク

AlignCoder：リポジトリレベルのコード補完に向けた検索とターゲット意図のアライメント

RvB：反復的なレッド・ブルー・ゲームによるAIシステム堅牢化の自動化

TokenSeek: インスタンスごとのトークン破棄によるメモリ効率の高いファインチューニング

Veri-Sure：正しいRTLコード生成のための時間的追跡と形式検証を備えた契約認識型マルチエージェントフレームワーク

エージェント的デザインパターン：システム理論的フレームワーク

GAVEL：アクティベーション監視を通じたルールベースの安全性に向けて

CASTER: タスク効率的なルーティングのためのコンテキスト認識戦略によるマルチエージェント・オーケストレーションにおけるコストパフォーマンスの壁の打破

反復的RAGが理想的な根拠情報を凌駕するとき：科学分野におけるマルチホップ質問応答の診断的研究