タグ: cs.LG | Cog AI Archive

AI研究 2026-02-04

再パラメータ化フロー方策最適化

従来の再パラメータ化方策勾配（RPG）はガウス分布に基づく方策に限定されており、多峰性を持つ複雑な行動分布を表現する能力に欠けていたが、本研究では微分可能な常微分方程式（ODE）の積分を通じて行動を生成するフロー方策がRPGの枠組みと自然に適合することを明らかにした。

5849 字

読む →

AI研究 2026-02-04

生成デコンプレッション：分布の不一致に対する最適な非可逆復号化

本論文は、圧縮機の設計時に想定したデータ分布と実際のソース分布が異なる「分布の不一致」が発生する状況において、送信側のエンコーダを一切変更することなく、受信機側のみの調整で歪みを最小化する「生成デコンプレッション」を提案している。

6708 字

読む →

AI研究 2026-02-04

すべての負例が等しいわけではない：LLMはもっともらしい推論からより良く学習する

大規模言語モデル（LLM）の推論能力を向上させるためには、単なる誤答ではなく、論理構成は一貫しているが結論だけが誤っている「もっともらしい負例（PNS）」が極めて重要な学習信号になることを解明した。

6180 字

読む →

AI研究 2026-02-04

EVE: 近似アンラーニングにおけるカスタマイズされた摂動を用いたデータ消去の効率的な検証

1. 機械学習モデルから特定のデータを削除する「アンラーニング」が正しく実行されたかを検証するため、モデルの初期学習フェーズへの関与を一切必要とせず、アンラーニングの実行段階のみで効率的に動作する新しい検証手法「EVE」を提案する。 2.

5645 字

読む →

AI研究 2026-02-04

音響・視覚共同表現のための非対称な階層的アンカリング：堅牢なクロスモーダル汎化に向けた情報割り当ての曖昧さの解消

従来の音声と視覚の共同表現学習におけるクロスモーダル汎化では、対称的な構造が情報の割り当てに曖昧さを生じさせ、意味情報が特定のモダリティ固有のブランチに漏洩することで、ラベルのないターゲットモダリティへの知識転送が阻害されるという深刻な課題がありました。

5948 字

読む →

AI研究 2026-02-04

空力逆設計における最適化と生成の統合手法

物理学的な目標に基づく逆設計において、高次元の幾何形状と高コストなシミュレーションの結合を解消するため、最適設計点と最適設計分布を最適化および誘導生成に関連付けた統一的な理論枠組みを提案している。

6354 字

読む →

AI研究 2026-02-04

$V_0$: 状態ゼロにおけるあらゆる方策のための汎用価値モデル

大規模言語モデルの強化学習において、従来のアクター・クリティック法が抱えていた「方策の進化に伴う価値モデルの頻繁な再学習コスト」と、GRPO等の手法における「サンプリングの不安定性」という二律背反の課題を解決するため、方策の能力をパラメータではなく「過去の行動履歴」という文脈情報として読み取る汎用価値モデル「V0」を提案しました。 V0は、意味理解を担う埋め込みバックボーンと統計的推論に特化したTabPFNを組み合わせたハイブリッド構造を採用しており、特定のプロンプトに対する各モデルの成功確率を、追加の勾配更新なしに単一のフォワードパスで予測することが可能です。実験の結果、V0は学習過程における方策の性能変化を極めて正確に追跡できるだけでなく、未知のモデルやタスクに対しても高い汎化性能を示し、学習時の計算資源配分の最適化や推論時のコスト効率的なルーティングにおいてパレート最適な制御を実現することを実証しました。

6171 字

読む →

AI研究 2026-02-04

SAGE-5GC：5Gコアネットワークにおける異常検知評価のためのセキュリティを考慮したガイドライン

5Gコアネットワーク（5GC）の異常検知において、従来の評価手法が前提としていた「データが独立同一分布（IID）に従う」という仮定や「攻撃者が防御側に適応しない」という静的な脅威モデルが、実際の運用環境（in the wild）では成立せず、検知性能が過大評価されているリスクを指摘した。

5740 字

読む →

AI研究 2026-02-04

TRE: 信頼領域内での探索を促進する手法の提案

大規模言語モデル（LLM）の強化学習において、全語彙を対象とする従来のエントロピー正則化は、膨大な無効トークンに確率を分散させ推理の整合性を損なう「累積的なテイルリスク」を引き起こすことが判明した。

5715 字

読む →

AI研究 2026-02-04

マルチターンエージェントにおける対話の慣性の軽減

大規模言語モデル（LLM）をマルチターンエージェントとして利用する際、過去の自身の回答を過度に模倣して探索を阻害する「会話の慣性（Conversational Inertia）」という現象が特定されました。

6480 字

読む →

生成AI研究を、要点から追う。

最新の記事

再パラメータ化フロー方策最適化

生成デコンプレッション：分布の不一致に対する最適な非可逆復号化

すべての負例が等しいわけではない：LLMはもっともらしい推論からより良く学習する

EVE: 近似アンラーニングにおけるカスタマイズされた摂動を用いたデータ消去の効率的な検証

音響・視覚共同表現のための非対称な階層的アンカリング：堅牢なクロスモーダル汎化に向けた情報割り当ての曖昧さの解消

空力逆設計における最適化と生成の統合手法

$V_0$: 状態ゼロにおけるあらゆる方策のための汎用価値モデル

SAGE-5GC：5Gコアネットワークにおける異常検知評価のためのセキュリティを考慮したガイドライン

TRE: 信頼領域内での探索を促進する手法の提案

マルチターンエージェントにおける対話の慣性の軽減