継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

SAPO: 自己適応的なプロセス最適化が小規模推論モデルを強力にする

SAPO(Self-Adaptive Process Optimization)は、小規模言語モデル(SLM)の推論能力を効率的に向上させるための、自己適応型プロセス最適化フレームワークである。

5699 字
読む →

スピードアップの先へ:KVキャッシュをサンプリングと推論に活用する

大規模言語モデルの推論を高速化するために不可欠なKVキャッシュを、単なる加速手段ではなく、下流タスクのための軽量な表現(埋め込み)として再利用する手法が提案されました。 この手法は、追加の計算コストやメモリ消費をほとんど伴わずに、推論パスの選択を行うChain-of-Embeddingや、問題の難易度に応じて思考の深さを切り替えるFast/Slow Thinking Switchに適用可能です。 実験では、Llama-3.1やQwen2などのモデルにおいて、フル状態の隠れ層を用いる手法に匹敵する性能を示しつつ、特定のタスクでは生成トークン数を最大5.7倍削減することに成功しました。

6625 字
読む →

CE-RM:2段階ロールアウトと統一基準で最適化された4Bパラメータの生成型報酬モデル

従来の生成型報酬モデルは、ベンチマークでの高スコアが実際の強化学習の成果に結びつかない「乖離」や、ペアワイズ評価による計算コストの増大、評価基準の不一致という課題を抱えていた。本研究は、クエリのみに基づいた「統一基準」を生成した後に各回答を個別に評価する、2段階ロールアウトを採用した40億パラメータのポイントワイズ報酬モデル「CE-RM-4B」を提案した。約5,700件の高品質データを用いた学習により、700億パラメータ級のモデルを凌駕する評価精度を達成し、実際の強化学習(RL)においても一貫性のある報酬信号を提供することで、下流タスクの性能を効果的に向上させることに成功した。

7326 字
読む →

MobileBench-OL: 実世界のモバイル環境におけるGUIエージェントのための包括的中国語ベンチマーク

実世界のモバイル環境でGUIエージェントを評価するため、80種類の中国語アプリから1080個のタスクを収録したオンラインベンチマーク「MobileBench-OL」が開発されました。 従来の評価手法が単純な指示への追従に偏っていたのに対し、本手法は20ステップ以上の長期推論、アイコン理解や隠れた機能の探索、さらにポップアップや遅延といった実環境特有のノイズへの耐性を多角的に測定します。 自動評価フレームワークとデバイス状態を復元するリセットメカニズムを導入して12種類の主要エージェントを評価した結果、実世界の要求を満たすには依然として大きな改善の余地があることが明らかになりました。

5922 字
読む →

生成順序とトークン空間の同時探索による拡散言語モデルのデコーディング改善

拡散言語モデル(DLM)が持つ「生成順序に依存しない」という潜在的な利点を引き出すため、生成順序とトークンの値を同時に探索する新しいアルゴリズム「Order-Token Search」が提案されました。

7231 字
読む →

TABED: LVLMにおける堅牢な推測デコーディングのためのテスト時適応アンサンブルドラフト

大規模視覚言語モデル(LVLM)の推論を大幅に加速させるため、複数のドラフトモデルをテスト時に動的に統合する新手法「TABED」が提案されました。従来の推測デコーディングでは、視覚情報の有無によって加速性能が不安定になる課題がありましたが、本手法は過去の検証結果から最適な重みを適応的に決定することで、多様なシナリオで一貫した高速化を実現します。追加の学習を一切必要としないプラグアンドプレイな設計でありながら、平均で1.74倍の速度向上を達成し、既存の単一ドラフト手法を5%以上上回る堅牢な性能を幅広いベンチマークで示しました。

5642 字
読む →

精度を超えて:ツール使用エージェントの能力限界をマッピングする認知負荷フレームワーク

従来のベンチマークは最終的な精度のみを報告し、モデルが失敗する原因となる認知的ボトルネックを隠蔽していたが、本研究は認知負荷理論(CLT)に基づき、タスクの複雑さを構造的な「本質的負荷」と提示方法による「外来的負荷」に分解して定量化する新しい評価フレームワークを提案した。

6128 字
読む →

SpeechMapper: LLMのための音声からテキストへの埋め込みプロジェクター

SpeechMapperは、音声基礎モデルの出力を大規模言語モデル(LLM)の埋め込み空間へ直接写像する、計算コスト効率に優れた2段階の学習手法を提案しており、従来の膨大な計算資源とデータを必要とする音声・LLM統合手法が抱えていた高コストかつ過学習しやすいという深刻な課題を解決する画期的なアプローチである。

5687 字
読む →

PEARL: マルチホップツール使用のための計画探索と適応型強化学習

PEARLは、大規模言語モデルが複雑な多段階のツール呼び出しにおいて直面する、計画能力の欠如やツールの幻覚、誤ったパラメータ生成といった深刻な課題を解決するために開発された新しいフレームワークである。

5737 字
読む →

MuVaC:対話におけるマルチモーダルな皮肉理解のための変分因果フレームワーク

ソーシャルメディア上のマルチモーダルな対話における皮肉を理解するため、皮肉の検出(MSD)とその理由の説明(MuSE)を因果的な依存関係として捉える新しい変分因果推論フレームワーク「MuVaC」を提案した。

6404 字
読む →