継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

3D-Learning:拡散拡張された分布頑健な意思決定重視学習

機械学習による予測を意思決定に活用するPredict-then-Optimize(PTO)において、テスト時のデータ分布の変化(OOD)による性能劣化を防ぐため、拡散モデルを用いて最悪のシナリオを想定し学習する「3D-Learning」フレームワークを提案した。

5975 字
読む →

Quant VideoGen: 2ビットKVキャッシュ量子化による自己回帰型長時間動画生成

自己回帰型動画生成モデルにおいて、生成時間の経過とともに線形増大し、GPUメモリを占有して長時間生成を阻害する「KVキャッシュ」の肥大化問題を、システムとアルゴリズムの両面から解決する新しいフレームワークを提案しました。

5911 字
読む →

公平性を重視した人間中心の交通信号制御:マルチエージェント行動分岐深層強化学習によるアプローチ

従来の車両台数や待ち時間を優先する「車両中心」の信号制御から、歩行者や公共交通機関の利用者を含むすべての移動者の公平性を最適化する「人間中心」のフレームワーク「MA2B-DDQN」を提案し、都市交通における公平性と持続可能性の両立を目指しました。

6005 字
読む →

統一的ヒューマノイド全身制御のための身体性を考慮したジェネラリスト・スペシャリスト蒸留

本研究は、構造の異なる複数のヒューマノイドを単一のポリシーで制御する学習フレームワーク「EAGLE」を開発し、歩行だけでなく、しゃがむ、傾くといった多様な全身動作を、ロボットごとの報酬調整なしで実現した。

6135 字
読む →

Co2PO: 協調的な制約付き方策最適化によるマルチエージェント強化学習

マルチエージェント強化学習(MARL)において、報酬の最大化と安全制約の遵守を両立させることは極めて困難な課題である。本研究で提案された「Co2PO」は、エージェントがリスクを事前に予測し、必要な時だけ情報を共有する「選択的かつリスク認識型の協調」を導入することで、この問題を解決する。

6183 字
読む →

グレブナー基底計算のための高速な単項式順序の学習

多項式方程式系を解くための基盤技術であるグレブナー基底の計算効率は、単項式順序の選択に決定的に依存するが、従来は専門家の直感に基づくGrevLexなどの静的な手法に頼っており、広大な探索空間であるグレブナー扇の構造は十分に活用されていなかった。

6094 字
読む →

規範と参照が衝突する場所:規範的推論におけるLLMの評価

ロボットなどのエージェントが人間と円滑に意思疎通を図るためには、物理的および社会的な文脈に基づいた「社会規範」を理解し、曖昧な指示から意図された対象物を特定する能力(NBRR)が不可欠であるが、現在のLLMがこの能力をどの程度備えているかは不明であった。

6618 字
読む →

マルコフ決定過程における幾何学的整合性を用いた価値表現の構造化

強化学習における時間差分(TD)学習は、関数近似や分布の変動によって学習が不安定になり、発散や振動を引き起こすという課題を抱えていますが、本研究は順序論の視点から価値関数を半順序集合(poset)として再構成するGCR-RLを提案し、幾何学的な整合性を強制することで学習の安定化と高速化を実現しました。

5821 字
読む →

CPMobius:データ不要の強化学習を実現する反復的なコーチ・プレイヤー推論フレームワーク

従来の大規模言語モデルの学習は、人間が作成した高品質なデータに過度に依存しており、データの枯渇やスケーラビリティの限界が課題となっていましたが、本研究では外部データに頼らずモデルが自律的に進化する「CPMobius」という革新的なコーチ・プレイヤー協調型フレームワークを提案しました。

5781 字
読む →

LLMの因果推論におけるバイアスと人間との比較分析

20種類以上の大規模言語モデル(LLM)を対象に、衝突構造(C1→E←C2)を用いた11の因果推論タスクで人間と比較した結果、LLMは人間よりも提示されたルールに極めて厳格に従う傾向があることが判明しました。

6314 字
読む →