AI研究 | Cog AI Archive

AI研究 2026-01-29

R^3：LLMの強化学習のためのリプレイ、リフレクション、およびランキング報酬

大規模推論モデルの学習において、グループ内の報酬差が消失し学習が停滞する「アドバンテージの崩壊」を防ぐため、過去の履歴を活用するクロスコンテキスト・リプレイ（CCR）、失敗から学ぶインコンテキスト自己内省（ISR）、およびトークン単位のエントロピーに基づく構造的エントロピー・ランキング報酬（SERR）を統合した強化学習メカニズム「R^3」が提案されました。 DeepSeek-R1-Distill-Qwen-1.5Bおよび7Bをベースに数学ドメインで訓練した結果、1.5Bという小規模なモデルでありながらAIME 2024などの難関ベンチマークで従来の7Bクラスのモデルを凌駕する最先端の性能を達成し、同時に推論に必要なトークン数の削減にも成功しています。本手法は、プロセスレベルの注釈に頼ることなく、外部的な介入と内部的な自己最適化を組み合わせることで、困難なタスクにおいても安定した学習信号を維持し、モデルが自身の過去の誤りから自律的に推論プロセスを洗練させることを可能にした画期的なフレームワークです。

6027 字

読む →

AI研究 2026-01-29

RATE：査読システムにおける専門性ランキングのための査読者プロファイリングとアノテーション不要の訓練

大規模言語モデル（LLM）の急速な発展に伴う研究トピックの変遷に対応するため、2024年から2025年の最新論文と査読者の自己申告による専門性評価（1,055件）を含む高精度なベンチマーク「LR-bench」を構築しました。

6678 字

読む →

AI研究 2026-01-29 長文

Grasynda：グラフに基づく合成時系列データの生成

Grasyndaは、単変量の時系列データをグラフ構造へと変換し、状態間の遷移確率を基に現実的な合成データを生成する新しいデータ拡張手法である。時系列を離散的な状態（ノード）とそれらの遷移（エッジ）としてモデル化することで、データの局所的なパターンと全体的な構造の両方を効果的に符号化し、統計的性質を維持したデータ生成を可能にする。 6つのベンチマークデータセットを用いた検証の結果、NHITSやKANなどの最新モデルにおいて、AmazonのChronosで採用されている手法を含む既存のデータ拡張技術を上回る予測精度の向上が確認された。この手法はSTL分解を併用することで、トレンドや季節性といった非定常な特性を保持しながら、効率的かつ高精度なデータ拡張を実現し、深層学習モデルの汎化性能を大幅に向上させる実用的な枠組みを提供している。

7106 字

読む →

AI研究 2026-01-29

マルチモーダル大規模言語モデルの音声推論能力のためのベンチマーク

現在のマルチモーダル大規模言語モデル（MLLM）の音声評価指標は、話者識別や性別判定といった個別のタスクに偏っており、複数の音声情報を組み合わせて論理的に思考する「推論能力」を十分に測定できていない。

6226 字

読む →

AI研究 2026-01-29

AlignCoder：リポジトリレベルのコード補完に向けた検索とターゲット意図のアライメント

既存のコード生成モデルはリポジトリ固有の知識が不足しており、検索拡張生成（RAG）を用いてもクエリとターゲットコードの間に意味的な不一致が生じるという課題がありました。本研究が提案するAlignCoderは、複数の候補生成によってクエリを強化する仕組みと、強化学習を用いた検索モデルの訓練手法を導入することで、検索精度とコード補完の正確性を大幅に向上させます。実験の結果、CrossCodeEvalベンチマークにおいてベースラインを18.1%上回るEMスコアを達成し、多様なプログラミング言語やモデルに対して高い汎用性と優れた性能を持つことが実証されました。

6541 字

読む →

AI研究 2026-01-29

RvB：反復的なレッド・ブルー・ゲームによるAIシステム堅牢化の自動化

RvBは、大規模言語モデルの安全性を飛躍的に高めるために開発された、学習や微調整を一切必要としない革新的な自動堅牢化フレームワークであり、攻撃を担うレッドチームと防御を担うブルーチームが対話的に試行錯誤を繰り返す「不完全情報ゲーム」として設計されている。

6330 字

読む →

AI研究 2026-01-29

TokenSeek: インスタンスごとのトークン破棄によるメモリ効率の高いファインチューニング

大規模言語モデルのファインチューニングにおいて、メモリ消費の最大87%を占めるアクティベーションの課題を解決するため、各データの文脈と勾配情報から重要なトークンのみを選択して学習する「TOKENSEEK」が提案されました。この手法は、Llama3.2 1Bにおいて元のメモリのわずか14.8%（2.

6366 字

読む →

AI研究 2026-01-29

Veri-Sure：正しいRTLコード生成のための時間的追跡と形式検証を備えた契約認識型マルチエージェントフレームワーク

大規模言語モデルを用いたRTL設計において、設計契約（Design Contract）を核としたマルチエージェントフレームワーク「VERI-SURE」を開発し、エージェント間での意図の乖離（セマンティック・ドリフト）を防ぐ仕組みを構築しました。

6188 字

読む →

AI研究 2026-01-29

エージェント的デザインパターン：システム理論的フレームワーク

基盤モデルを用いたエージェントAIは、ハルシネーションや推論能力の不足、そして場当たり的なシステム設計による信頼性の低さが大きな課題となっており、既存の設計パターンも理論的根拠に欠け実装が困難な状況にあります。

6183 字

読む →

AI研究 2026-01-29

GAVEL：アクティベーション監視を通じたルールベースの安全性に向けて

大規模言語モデル（LLM）の内部状態を「認知要素（CE）」という解釈可能な最小単位に分解し、それらを論理ルールで組み合わせることで、高度な安全監視を実現するフレームワーク「GAVEL」が提案されました。

6268 字

読む →

生成AI研究を、要点から追う。

最新の記事

R^3：LLMの強化学習のためのリプレイ、リフレクション、およびランキング報酬

RATE：査読システムにおける専門性ランキングのための査読者プロファイリングとアノテーション不要の訓練

Grasynda：グラフに基づく合成時系列データの生成

マルチモーダル大規模言語モデルの音声推論能力のためのベンチマーク

AlignCoder：リポジトリレベルのコード補完に向けた検索とターゲット意図のアライメント

RvB：反復的なレッド・ブルー・ゲームによるAIシステム堅牢化の自動化

TokenSeek: インスタンスごとのトークン破棄によるメモリ効率の高いファインチューニング

Veri-Sure：正しいRTLコード生成のための時間的追跡と形式検証を備えた契約認識型マルチエージェントフレームワーク

エージェント的デザインパターン：システム理論的フレームワーク

GAVEL：アクティベーション監視を通じたルールベースの安全性に向けて