タグ: cs.LG | Cog AI Archive

AI研究 2026-02-04

確かなヘッド、不確かなテイル：細粒度MoEにおけるテスト時スケーリングのためのエキスパート・サンプル

細粒度MoEのルーティングにおいて、推論の核を担う少数の高確信度エキスパート（確かなヘッド）と、多様性に寄与する多数の低確信度エキスパート（不確かなテイル）が存在することを発見しました。この構造を利用し、ヘッドを固定して安定性を保ちつつ、テールの範囲から確率的にエキスパートを選択する手法「Expert-Sample」を提案し、追加学習なしで推論時の多様性と品質の両立を実現しました。数学や専門知識を問う難関タスクにおいて、従来のトークン単位のサンプリングを上回る正解発見率（pass@n）と検証精度を達成し、Qwen3やDeepSeek-V2などの最新モデルでその有効性を実証しました。

6036 字

読む →

AI研究 2026-02-04

「次に何を試すべきか」を学習する：ACEが因果実験を“方策”として身につける話

因果関係を知りたいとき、次の介入はどう選ぶのが正解なのでしょうか。実は「毎回その場で一番よさそう」を繰り返すだけでは、経験が“戦略”として蓄積されにくいです。判断は積み重なっているのに、学びは積み重ならない——そのズレが問題になります。

5916 字

読む →

AI研究 2026-02-04

『ダビデ対ゴリアテ』――強化学習で検証できるエージェント対エージェント脱獄

「安全なはずのエージェント」が、なぜ会話だけで“禁止されたツール操作”に踏み込んでしまうのか？この問いは、チャットでの言い回しや巧妙な誘導だけでは説明しきれない、エージェント特有の弱点を含んでいます。ポイントは、攻撃者がツールを持たなくても「信頼された権限に同乗」できるところにあります。

5942 字

読む →

AI研究 2026-02-04 長文

「教科書的な解答」を「学べる推論」に変える：DAILという発想

難問で、LLMはどうやって“学ぶための手がかり”を手に入れるべきなのでしょうか？正解が出ないなら強化学習は止まり、模範解答を真似ても逆に崩れる──ここが意外な落とし穴です。この記事では、専門家の解答を“学習可能な推論”へ変換して使うDAILの狙いと仕組みを、論文の範囲で追います。

7068 字

読む →

AI研究 2026-02-04

心の目は、AIの推論を強くするのか――MentisOculiが暴く「メンタルイメージ推論」の限界

AIに「途中の図」を描かせれば、難しい推論はもっと解けるようになる？ところが最先端モデルほど、絵を挟んでも強くならない場面がある。むしろ、図を入れたことで“別の失敗”が増えてしまう可能性すら見えてくる。この記事では、MentisOculiが何を測り、どこでつまずきが起きるのかを追いかける。

6179 字

読む →

AI研究 2026-02-04

MemSkill：自己進化エージェントのためのメモリスキルの学習と進化

記憶は、LLMエージェントにとって「後から効く力」なのに、なぜ手作業のルールに縛られ続けるのか？長い履歴を前にすると、いま役に立つ情報だけをうまく掬い上げ、不要になったものを整理し直す――その“当たり前”が、実は固定化された手順に強く依存しているからです。

6132 字

読む →

AI研究 2026-02-04 長文

テキストフィードバックによる強化学習の能力拡張

あなたは「一発で良い答え」を求めるのに、学習中のLLMはなぜ“やり取り”に頼りがちなのでしょうか？実は、RLの学習信号は「正解/不正解」の1ビットに近く、豊かな改善の手がかりを捨てている可能性があります。

7540 字

読む →

AI研究 2026-02-04

RLAnything：完全に動的なRLシステムで環境・方策・報酬モデルを構築する

自然言語で動くエージェントは、なぜ「最後の正解・不正解」だけでは育ちにくいのか？答えは、長い軌跡を進むほど“途中の学びの手がかり”が痩せていくからです。この記事では、環境・方策・報酬モデルを閉ループで鍛え合う「RLAnything」が何を狙い、どう効いたのかを、読み物としてほどきます。

6472 字

読む →

AI研究 2026-02-04

相反する目的に対する報酬なしアライメント

大規模言語モデルを「安全にしつつ、役にも立つ」ように整えるには、結局どこで折り合いをつけるべき？実はその折り合いは、目的を足し算した瞬間に崩れやすい——学習が不安定になり、トレードオフも悪化しうる。この記事では、報酬モデルなしで“衝突する目的”をさばく提案「RACO」が何を変えるのかを、筋道立てて追いかけます。

6266 字

読む →

AI研究 2026-02-01

GO-OSCおよびVASH：振動系における早期劣化検知のための幾何学を考慮した表現学習

回転機械や電力網などの振動システムにおける初期劣化は、信号エネルギーの変化として現れるよりもずっと前に、位相ジッター、周波数ドリフト、コヒーレンスの喪失といった「ダイナミクスの幾何学的歪み」として発生しますが、従来のエネルギーベースの指標や制約のない学習表現ではこれらを構造的に検知できず、検知の遅れや不安定さを招いていました。本研究が提案する「GO-OSC」は、潜在空間に「実シュア振動ゲージ」という正準的な幾何学的制約を課すことで、潜在状態空間モデルに固有の相似変換の曖昧さを解消し、異なる時間窓の間で一貫した比較や統計的集約が可能な「特定可能（identifiable）」な表現を学習することで、微細な位相変化を線形に捉えることを可能にします。この正準表現に基づく幾何学的プローブ群「VASH」は、従来のエネルギー指標と比較して16倍という劇的なデータ効率の向上を達成し、さらに振幅の急激な変化といった外乱に対しても極めて高いロバスト性を維持しながら、物理システムの安全な運用に不可欠な早期故障検知を理論的かつ実践的な基盤の上に実現しました。

6303 字

読む →

生成AI研究を、要点から追う。

最新の記事

確かなヘッド、不確かなテイル：細粒度MoEにおけるテスト時スケーリングのためのエキスパート・サンプル

「次に何を試すべきか」を学習する：ACEが因果実験を“方策”として身につける話

『ダビデ対ゴリアテ』――強化学習で検証できるエージェント対エージェント脱獄

「教科書的な解答」を「学べる推論」に変える：DAILという発想

心の目は、AIの推論を強くするのか――MentisOculiが暴く「メンタルイメージ推論」の限界

MemSkill：自己進化エージェントのためのメモリスキルの学習と進化

テキストフィードバックによる強化学習の能力拡張

RLAnything：完全に動的なRLシステムで環境・方策・報酬モデルを構築する

相反する目的に対する報酬なしアライメント

GO-OSCおよびVASH：振動系における早期劣化検知のための幾何学を考慮した表現学習