タグ: cs.LG | Cog AI Archive

AI研究 2026-02-04

長期ホライゾンのオフライン・ゴール条件付き強化学習のためのゴールの連鎖階層的方策

従来のオフライン階層的強化学習は、高レベルと低レベルのネットワークが分離されているため、複雑なタスクで最終ゴールを見失いやすく、単一の中間ゴールしか生成できないという構造的な限界を抱えていました。

6563 字

読む →

AI研究 2026-02-04

悪循環から好循環へ：教師なしビデオ物体中心学習のための相乗的表現学習

ビデオ物体中心学習において、エンコーダが生成する鋭いがノイズの多いアテンションマップと、デコーダが生成する空間的に一貫しているが境界がぼやけた再構成マップが、互いの学習を阻害し合う「悪循環」を特定しました。

5716 字

読む →

AI研究 2026-02-04 長文

リスク意識の注入：有用性を損なうことなく安全性のために視覚言語モデルを較正する

視覚言語モデル（VLM）は、視覚情報の統合によって本来の安全ガードレールが機能しなくなる「リスク信号の希釈」という課題を抱えており、画像や動画を悪用したマルチモーダルな脱獄攻撃に対して極めて脆弱です。

7466 字

読む →

AI研究 2026-02-04

DiscoverLLM：意図の実行から発見へと導く大規模言語モデルの学習フレームワーク

ユーザーが自身の望みを完全には言語化できていない「未形成の意図」を持つ状況において、従来の大規模言語モデルは具体的な質問を繰り返すだけであり、ユーザーが答えを持っていない場合には効果的に機能しないという課題がありました。

6330 字

読む →

AI研究 2026-02-04

スコアベース拡散モデルを用いた拡散光トモグラフィにおける不確実性定量化

拡散光トモグラフィ（DOT）における高度な不良設定性とモデル誤差の課題に対し、スコアベース拡散モデルを用いた新しい事後サンプリング枠組みであるUCoSを適用した。学習済みのデータ駆動型スコアと物理モデルに基づくガウス型スコアを凸結合させる新しい正則化手法を提案し、限定的な観測条件や分布外データに対する推定のロバスト性を向上させた。シミュレーションおよび実測データを用いた検証により、従来手法よりも事後分散を大幅に抑制し、ターゲット周辺に不確実性を局在化させた信頼性の高い画像再構成と不確実性定量化を実現した。

5895 字

読む →

AI研究 2026-02-04

分散を超えて：希少事象の増幅と双方向ペアリングによるプロンプト効率的なRLVR

検証可能な報酬を用いた強化学習（RLVR）において、従来の分散に基づくプロンプト選択は最適化が不安定になる課題があったが、本研究は「ポジティブ・ネガティブ・ペアリング」という新しい選択原理を提案した。

6375 字

読む →

AI研究 2026-02-04

IntentRL：強化学習によるオープンエンドな深いリサーチのための能動的なユーザー意図エージェントの学習

ディープリサーチ（DR）エージェントが曖昧な指示で長時間実行されることで生じる計算資源の浪費とユーザーの不満足という「自律性と対話のジレンマ」を解決するため、実行前に潜在的な意図を能動的に確認するフレームワーク「IntentRL」が提案されました。

6143 字

読む →

AI研究 2026-02-04

自己検証のジレンマ：LLMの推論における過剰なチェックの経験駆動型抑制

大規模推論モデル（LRM）の思考過程において、反省ステップの約4割から6割が中間結果の再確認（再チェック）であり、そのうち85%から95%という圧倒的多数が誤りを修正しない冗長なものであることが判明しました。

6039 字

読む →

AI研究 2026-02-04

DALI：ローカルPCにおける効率的なMoE推論のためのワークロード認識型オフローディングフレームワーク

混合専門家（MoE）モデルの巨大なパラメータをローカルPCの限られたリソースで扱うため、CPUとGPUの計算資源を動的に最適化して併用する新しいオフローディングフレームワーク「DALI」が提案されました。

5781 字

読む →

AI研究 2026-02-04

拡散LLMのための先読みパス尤度最適化

拡散大規模言語モデル（dLLM）において、生成の品質と極めて強く相関する評価指標として、アンマスク（マスク解除）の順序に依存した結合対数尤度「Path Log-Likelihood（Path LL）」を定義し、これが従来の指標よりもタスクの正解率を正確に反映することを明らかにした。

6250 字

読む →

生成AI研究を、要点から追う。

最新の記事

長期ホライゾンのオフライン・ゴール条件付き強化学習のためのゴールの連鎖階層的方策

悪循環から好循環へ：教師なしビデオ物体中心学習のための相乗的表現学習

リスク意識の注入：有用性を損なうことなく安全性のために視覚言語モデルを較正する

DiscoverLLM：意図の実行から発見へと導く大規模言語モデルの学習フレームワーク

スコアベース拡散モデルを用いた拡散光トモグラフィにおける不確実性定量化

分散を超えて：希少事象の増幅と双方向ペアリングによるプロンプト効率的なRLVR

IntentRL：強化学習によるオープンエンドな深いリサーチのための能動的なユーザー意図エージェントの学習

自己検証のジレンマ：LLMの推論における過剰なチェックの経験駆動型抑制

DALI：ローカルPCにおける効率的なMoE推論のためのワークロード認識型オフローディングフレームワーク

拡散LLMのための先読みパス尤度最適化