タグ: cs.LG | Cog AI Archive

AI研究 2026-02-04

プロンプト拡張は数学的推論におけるGRPOトレーニングをスケールアップさせる

大規模言語モデルの数学的推論能力を向上させる強化学習において、従来はエントロピー崩壊による不安定性が原因で、学習が5〜20エポック程度の短期間に制限されるという課題がありました。本研究が提案する「プロンプト拡張」は、複数の推論テンプレートとフォーマット報酬を組み合わせることで、単一の学習実行内で多様な推論の振る舞いを引き出し、エントロピー崩壊を抑制することに成功しました。この手法により、Qwen2.5-Math-1.5Bモデルにおいて最大50エポックの安定した長期学習が可能となり、主要な数学ベンチマークで従来手法を上回る最高水準の精度を達成しました。具体的には、多様なテンプレートを用いることで低エントロピー状態でも学習を継続できる安定性を確保し、計算コストを抑えつつモデルの推論能力を最大限に引き出す新しいトレーニングパラダイムを提示しています。

5675 字

読む →

AI研究 2026-02-04

大規模言語モデルのための有望なトークンを用いた強化学習

大規模言語モデル（LLM）の強化学習において、5万語を超える膨大な語彙全体を最適化対象とせず、モデルの事前知識に基づき論理的に妥当な「有望なトークン」だけに絞り込んで学習を行う新フレームワーク「RLPT」が提案されました。

5903 字

読む →

AI研究 2026-02-04

スカラ報酬からポテンシャルの傾向へ：モデルベース強化学習のためのポテンシャル景観の形成

モデルベース強化学習（MBRL）はサンプル効率に優れるが、報酬が稀にしか得られない「疎な報酬」環境では、報酬モデルが平坦になり計画を導くための有益な勾配が消失するという深刻なボトルネックに直面する。

6493 字

読む →

AI研究 2026-02-04

TAME：体系的なベンチマークによる信頼性の高いエージェントメモリのテスト時進化

テスト時の学習において、エージェントが経験を蓄積して推論能力を高める過程で、安全性の調整が損なわれる「エージェントメモリの誤進化」という現象が課題となっている。この現象を評価するため、数学、科学、ツール利用の3領域を網羅し、安全性、堅牢性、真実性、プライバシー、公平性の5次元で信頼性を測定する初のベンチマーク「Trust-Memevo」を構築した。実行者と評価者のメモリを分離した二層構造フレームワーク「TAME」を提案し、憲法的な制約に基づくフィルタリングと洗練を通じて、タスクの有用性と信頼性の両立を達成した。

6518 字

読む →

AI研究 2026-02-04

マージを超えて：アクティベーション誘導回転によるストリーミングLLMアップデート

大規模言語モデルの効率的な適応手法として、モデルマージを単なる事後処理ではなく、反復的な最適化プロセスとして再定義する「ストリーミング・マージ」という新しい枠組みが提案されました。中核技術である「ARM（アクティベーション誘導回転認識マージ）」は、モデル内部の活動差分から回転行列を導出し、従来の線形補間では到達不可能だった幾何学的な性能限界を突破して勾配降下法の動態を近似します。実験では、学習初期のチェックポイントのみを用いたマージによって、完全に収束した教師あり微調整（SFT）モデルの性能を上回るという、計算効率と高精度を両立した画期的な結果が示されました。

6344 字

読む →

AI研究 2026-02-04

アコーディオン思考：効率的で読みやすいLLM推論のための自己調整されたステップ要約

大規模言語モデルの推論において、冗長な思考過程を動的に要約し、不要になった詳細情報をメモリ（KVキャッシュ）から即座に破棄することで、計算リソースの消費を劇的に抑えつつ可読性を向上させる新しいフレームワーク「Accordion-Thinking」が開発されました。

6000 字

読む →

AI研究 2026-02-04

接尾辞を超えて：大規模言語モデルに対するGCG敵対的攻撃におけるトークン位置

大規模言語モデル（LLM）に対する主要なジェイルブレイク攻撃であるGCGは、従来はプロンプトの末尾に敵対的トークンを付加する手法が一般的であったが、本研究ではトークンの配置場所が攻撃の成功率に与える影響を詳細に調査した。

6281 字

読む →

AI研究 2026-02-04

有害性関連グラフによるマルチモーダルデータ内の潜在的な有害性の解明：グラフベースの指標と解釈可能な検出フレームワーク

マルチモーダルデータにおいて、画像やテキストが単独では無害に見えても、それらを組み合わせることで潜在的な有害性が生じる「隠れた毒性（Covert Toxicity）」を検出するため、意味的な連想を構造化する「毒性連想グラフ（TAG）」と、その隠蔽度を定量化する世界初の指標「マルチモーダル毒性隠蔽度（MTC）」を提案した。このグラフ構造に基づき、マルチモーダル大規模言語モデル（MLLM）を用いて毒性の推論経路を明示的に生成する検出フレームワーク「TA-CTD」を開発し、意思決定プロセスの透明性と解釈性を確保しながら、従来の moderation モデルでは見逃されがちな巧妙な有害コンテンツを特定することを可能にした。高い隠蔽度を持つ事例を収集した初のベンチマーク「Covert Toxic Dataset（CTD）」を構築して評価を行った結果、提案手法は既存の検出手法を精度と説明力の両面で上回り、特に複雑な文化的・文脈的な連想を必要とする高度に隠蔽された毒性の検出において顕著な有効性を示した。

6233 字

読む →

AI研究 2026-02-04

BlockRR: ラベル差分プライバシーのための統合されたランダム化回答フレームワーク

BlockRRは、既存の多様なランダム化回答（RR）手法を一つの数理的枠組みで統合し、ラベル空間を多数派と少数派のブロックに分割して制御する新しいラベル差分プライバシー（Label DP）フレームワークである。

6300 字

読む →

AI研究 2026-02-04

エージェンティックな提案：構成的スキル合成による大規模言語モデルの推論の強化

大規模言語モデルの複雑な推論能力を向上させるためには、高品質かつ検証可能な学習データセットが不可欠ですが、人間によるアノテーションはコストが極めて高く、大規模な拡張が困難であるという深刻な課題に直面しています。

5880 字

読む →

生成AI研究を、要点から追う。

最新の記事

プロンプト拡張は数学的推論におけるGRPOトレーニングをスケールアップさせる

大規模言語モデルのための有望なトークンを用いた強化学習

スカラ報酬からポテンシャルの傾向へ：モデルベース強化学習のためのポテンシャル景観の形成

TAME：体系的なベンチマークによる信頼性の高いエージェントメモリのテスト時進化

マージを超えて：アクティベーション誘導回転によるストリーミングLLMアップデート

アコーディオン思考：効率的で読みやすいLLM推論のための自己調整されたステップ要約

接尾辞を超えて：大規模言語モデルに対するGCG敵対的攻撃におけるトークン位置

有害性関連グラフによるマルチモーダルデータ内の潜在的な有害性の解明：グラフベースの指標と解釈可能な検出フレームワーク

BlockRR: ラベル差分プライバシーのための統合されたランダム化回答フレームワーク

エージェンティックな提案：構成的スキル合成による大規模言語モデルの推論の強化