継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

潜在的な思考の連鎖を計画として捉える:推論と言語化の分離

本研究では、大規模言語モデルの推論プロセスを言語化から切り離し、連続的な潜在空間における計画として再定義する新しいフレームワーク「PLaT」を提案している。従来の思考の連鎖(CoT)が抱えていた計算コストの増大や、離散的なトークン選択による推論経路の崩壊という課題に対し、推論を司るプランナーと、その思考をテキストに変換するデコーダーを分離した構造を採用することで、推論の動的な終了や中間状態の解釈を可能にした。数学的ベンチマークを用いた検証の結果、PLaTは従来のベースラインと比較して決定論的な回答精度では及ばないものの、多様な推論経路を探索する能力において極めて高いスケーラビリティを示すことが確認されており、より広範な解空間を学習していることが示唆されている。

6375 字
読む →

コンプライアンス・パラドックス:自動コード評価における意味と指示の乖離

大規模言語モデル(LLM)を教育評価に導入する際、指示に従う能力が客観的な判定能力に直結するという前提がありますが、本研究ではモデルがコードの論理を無視して隠された指示を優先する「コンプライアンス・パラドックス」という深刻な脆弱性を明らかにしました。

5713 字
読む →

NEMO: 自律型コーディングエージェントによる実行を考慮した最適化モデリング

NEMOは、自然言語による意思決定問題の記述を、自律型コーディングエージェント(ACA)を活用して実行可能な数学的最適化モデルへと変換する革新的なシステムです。サンドボックス環境でのコード実行と、命令型のシミュレータによる非対称な検証ループ、外部メモリを用いた数発学習、自己整合性メカニズムを組み合わせることで、生成されたコードの信頼性と実行可能性を高度に担保しています。評価の結果、9つの主要な最適化ベンチマークのうち8つにおいて従来技術を凌駕する最高水準の性能を達成し、特定の課題では最大28パーセントポイントの精度向上を実現したことが示されています。

6530 字
読む →

Sim-MSTNet:sim2realに基づくマルチタスク時空間ネットワークトラフィック予測

従来のネットワークトラフィック予測は、新設基地局などのデータ不足環境での性能低下や、複数サービスを同時に扱うマルチタスク学習におけるタスク間の不均衡および負の転移という課題を抱えていました。本研究が提案するSim-MSTNetは、シミュレータによる合成データを活用するSim2Realアプローチとドメインランダム化技術を導入し、二段階最適化によって現実データとの乖離を埋めつつ、データの希少性を克服しています。 イタリアのミラノおよびトレントの公開データセットを用いた実験では、提案モデルが既存の最新手法を一貫して上回る精度を記録し、特に注意機構を用いたタスク間の知識共有と動的な損失重み付け戦略により、通話、SMS、ネット通信の各タスクで高い汎化性能を実証しました。この成果は、次世代の6G通信インフラにおけるインテリジェントな運用管理や、不確実性の高い環境下での適応的なトラフィック制御を実現するための重要な基盤技術となることが期待されます。

6847 字
読む →

合成音声品質評価のためのフレシェ音声距離の理解

合成音声の品質を客観的に評価するため、画像分野のFIDを応用したフレシェ音声距離(FSD)と、正規分布の仮定を必要としない新指標である音声最大平均不一致(SMMD)の有効性を、WavLMやWhisperを含む5種類の音声埋め込みモデルを用いて体系的に検証しました。

5702 字
読む →

報酬が疎な環境のための内発的報酬方策最適化

強化学習において報酬が稀薄な環境は、エージェントが最適な方策を見つけるための探索が困難であるという課題を抱えています。本研究で提案されたIRPO(Intrinsic Reward Policy Optimization)は、複数の内発的報酬を利用して探索用の方策を更新し、その結果得られた信号をベース方策へ逆伝播させることで、稀薄な報酬環境でも効果的な学習を実現する新しい最適化フレームワークです。実験の結果、離散および連続の多様なタスクにおいて、従来の手法である階層型強化学習や報酬加算型の手法を上回る高い最終性能と優れたサンプル効率を達成することが確認されました。

6806 字
読む →

報酬が疎な環境のための内発的報酬方策最適化

本研究は、目標達成時のみ報酬が得られる「報酬が疎な環境」において、効率的な探索と精密な制御を両立させる新しい強化学習アルゴリズム「内発的報酬方策最適化(IRPO)」を提案しました。 従来の内発的報酬を加算する手法や階層型強化学習が抱えていた、報酬割り当ての不安定さやサンプル効率の悪さ、および解の劣適性といった課題を、複数の探索用方策からの勾配をバックプロパゲーションで統合する「代理方策勾配」の仕組みによって解決しています。 複雑な迷路やロボット制御タスクを用いた実験において、既存の主要なベースラインを大幅に上回る学習速度と最終性能を達成し、特に精密な動作が要求される連続空間のタスクで顕著な優位性と安定性を示しました。

5817 字
読む →

動的モデル補間によるシステム1と2の相乗効果

大規模言語モデルにおいて、直感的な「システム1」と熟考的な「システム2」を統合するため、出力の長さではなく「思考能力」そのものを制御する動的モデル補間手法「DAMI」が提案されました。 既存の指示追従モデルと推論モデルのパラメータを線形補間することで、追加学習なしにクエリごとの最適な推論強度を調整し、表現空間の連続性と構造的結合性を維持しながら性能を制御することが可能です。 数学的推論ベンチマークにおいて、従来の推論モデルより高い精度を維持しつつ、トークン消費量を29〜40%削減することに成功し、効率性と推論の深さの最適なバランスを実現しました。

5688 字
読む →

動的モデル補間によるシステム1と2の相乗効果:DAMIフレームワークの提案

大規模言語モデルにおいて、直感的な「システム1」と熟考的な「システム2」を統合する際、従来の出力トークン数を制限する手法(出力制御)ではなく、モデルの思考の深さそのものを調整する「能力制御」という新しいパラダイムを提案します。

6065 字
読む →

難易度を考慮した強化学習による大規模推論モデルの過剰思考の軽減

大規模推論モデル(LRM)が、非常に単純な問いに対しても不必要に長い思考プロセスを展開してしまう「過剰思考(オーバーシンキング)」という課題を解決するため、タスクの難易度を自律的に認識して推論の深さを調整する新しい学習枠組み「DiPO」が提案されました。

5870 字
読む →