再パラメータ化フロー方策最適化
従来の再パラメータ化方策勾配(RPG)はガウス分布に基づく方策に限定されており、多峰性を持つ複雑な行動分布を表現する能力に欠けていたが、本研究では微分可能な常微分方程式(ODE)の積分を通じて行動を生成するフロー方策がRPGの枠組みと自然に適合することを明らかにした。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
従来の再パラメータ化方策勾配(RPG)はガウス分布に基づく方策に限定されており、多峰性を持つ複雑な行動分布を表現する能力に欠けていたが、本研究では微分可能な常微分方程式(ODE)の積分を通じて行動を生成するフロー方策がRPGの枠組みと自然に適合することを明らかにした。
本論文は、圧縮機の設計時に想定したデータ分布と実際のソース分布が異なる「分布の不一致」が発生する状況において、送信側のエンコーダを一切変更することなく、受信機側のみの調整で歪みを最小化する「生成デコンプレッション」を提案している。
大規模言語モデル(LLM)の推論能力を向上させるためには、単なる誤答ではなく、論理構成は一貫しているが結論だけが誤っている「もっともらしい負例(PNS)」が極めて重要な学習信号になることを解明した。
1. 機械学習モデルから特定のデータを削除する「アンラーニング」が正しく実行されたかを検証するため、モデルの初期学習フェーズへの関与を一切必要とせず、アンラーニングの実行段階のみで効率的に動作する新しい検証手法「EVE」を提案する。 2.
従来の音声と視覚の共同表現学習におけるクロスモーダル汎化では、対称的な構造が情報の割り当てに曖昧さを生じさせ、意味情報が特定のモダリティ固有のブランチに漏洩することで、ラベルのないターゲットモダリティへの知識転送が阻害されるという深刻な課題がありました。
物理学的な目標に基づく逆設計において、高次元の幾何形状と高コストなシミュレーションの結合を解消するため、最適設計点と最適設計分布を最適化および誘導生成に関連付けた統一的な理論枠組みを提案している。
大規模言語モデルの強化学習において、従来のアクター・クリティック法が抱えていた「方策の進化に伴う価値モデルの頻繁な再学習コスト」と、GRPO等の手法における「サンプリングの不安定性」という二律背反の課題を解決するため、方策の能力をパラメータではなく「過去の行動履歴」という文脈情報として読み取る汎用価値モデル「V0」を提案しました。 V0は、意味理解を担う埋め込みバックボーンと統計的推論に特化したTabPFNを組み合わせたハイブリッド構造を採用しており、特定のプロンプトに対する各モデルの成功確率を、追加の勾配更新なしに単一のフォワードパスで予測することが可能です。 実験の結果、V0は学習過程における方策の性能変化を極めて正確に追跡できるだけでなく、未知のモデルやタスクに対しても高い汎化性能を示し、学習時の計算資源配分の最適化や推論時のコスト効率的なルーティングにおいてパレート最適な制御を実現することを実証しました。
5Gコアネットワーク(5GC)の異常検知において、従来の評価手法が前提としていた「データが独立同一分布(IID)に従う」という仮定や「攻撃者が防御側に適応しない」という静的な脅威モデルが、実際の運用環境(in the wild)では成立せず、検知性能が過大評価されているリスクを指摘した。
大規模言語モデル(LLM)の強化学習において、全語彙を対象とする従来のエントロピー正則化は、膨大な無効トークンに確率を分散させ推理の整合性を損なう「累積的なテイルリスク」を引き起こすことが判明した。
大規模言語モデル(LLM)をマルチターンエージェントとして利用する際、過去の自身の回答を過度に模倣して探索を阻害する「会話の慣性(Conversational Inertia)」という現象が特定されました。