継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

効率的なコード位置特定のための適応型並列実行の学習

ソフトウェア開発の自動化において、修正箇所を特定するコード位置特定は計算リソースの半分以上を消費する大きなボトルネックです。従来手法は逐次実行による情報不足や、固定的な並列化による34.9%もの冗長な呼び出しという課題を抱えていましたが、本研究の「FuseSearch」は情報の新規性と呼び出し回数の比率を「ツール効率」として定義し、適応的な並列実行戦略を学習しました。 検証の結果、4Bパラメータの小型モデルでありながらSWE-bench VerifiedでファイルレベルF1スコア84.7%を達成し、実行時間を93.6%、消費トークン量を68.9%削減するという、圧倒的な品質とコストパフォーマンスの両立を実現しています。 この手法は、情報の新規性を常に監視しながら並列度を動的に調整することで、冗長な信号を排除し、最終的な位置特定の精度を向上させるという相乗効果をもたらしており、実用的な自動開発エージェントの構築に向けた新たな標準を提示しています。

7183 字
読む →

GMS-CAVP:マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

GMS-CAVPは、映像と音声の間の意味的・時間的な対応関係を高度にモデル化するため、マルチスケールでの対照学習と拡散モデルベースの生成学習を統合した新しい視聴覚事前学習フレームワークである。 従来の単一スケールによるグローバルな整列の限界を克服するため、階層的な空間・時間構造を捉える「マルチスケール空間・時間整列(MSA)」と、モダリティ間の翻訳能力を高める「マルチスケール空間・時間拡散(MSD)」を導入している。 VGGSound、AudioSet、Panda70Mを用いた大規模な実験において、映像からの音声生成および双方向検索の双方で従来手法を大幅に上回る世界最高水準の性能を達成し、高い同期性と音響品質を証明した。

5982 字
読む →

方策事前分布を用いた安全な探索

強化学習エージェントが実世界で学習する際、壊滅的な失敗を避けるための「安全な探索」が不可欠であり、本研究ではオフラインデータやシミュレータから得られる不完全だが保守的な「方策事前分布」を活用する新しいアルゴリズムであるSOOPERを提案した。

6184 字
読む →

最大36倍の高速化:MLLMにおけるキー情報抽出のためのマスクベース並列推論パラダイム

視覚的に豊かな文書(VrD)からのキー情報抽出(KIE)において、従来のマルチモーダル大規模言語モデル(MLLM)が抱えていた自己回帰的な逐次トークン生成による推論速度のボトルネックを解消するため、ターゲットとなる値を「[mask]」トークンで置き換えて一括生成する並列推論パラダイム「PIP」が提案されました。

5820 字
読む →

R^3:LLM強化学習のためのリプレイ、リフレクション、およびランキング報酬

大規模言語モデルの強化学習において、グループ内の回答がすべて正解または不正解になり学習信号が消失する「アドバンテージの崩壊」を解決するため、過去の履歴を活用するリプレイ(CCR)、自己反省を促すリフレクション(ISR)、未完の回答をエントロピーで評価するランキング報酬(SERR)を組み合わせた新手法「R³」を提案しました。 この手法をDeepSeek-R1-Distill-Qwen-1.5Bに適用した結果、数学ベンチマークにおいて従来の1.5Bモデルを大幅に上回るだけでなく、パラメータ数が数倍大きい7B規模の既存モデルをも凌駕する性能を達成し、より少ない推論トークン数で効率的に正解に到達できることが実証されました。 具体的には、数学の難問セットであるAIME24において、ベースモデルの28.12から47.50へとスコアをほぼ倍増させ、さらに学習プロセスにおいて人間によるプロセス報酬の注釈を必要としない教師なしの報酬設計を実現することで、計算リソースの効率化と推論能力の深化を両立させています。

5989 字
読む →

たった一つのトークンで十分:シンクトークンによる拡散言語モデルの改良

拡散言語モデル(DLM)において、注意が特定のトークンに過度に集中する「シンク現象」が、推論ステップごとに予測不能に移動する「移動シンク現象」を特定し、これがモデルの不安定性を引き起こす課題を明らかにした。

6478 字
読む →

不変軌道学習による一般化可能なマルチモーダル大規模言語モデル編集

マルチモーダル大規模言語モデル(MLLM)の知識編集において、従来の固定的なマッピングが引き起こす「因果的な過小適合」と「因果的な過学習」を解決するため、編集を分布外(OOD)汎化問題として再定義しました。

5812 字
読む →

SAM Audio Judge:音源分離の知覚的評価のための統合マルチモーダルフレームワーク

従来の音源分離評価で主流だったSDRなどの指標は、正解信号への依存や人間の知覚との乖離という大きな課題を抱えていましたが、本研究では正解信号を必要とせず、人間の知覚と高度に一致する新しい客観的評価指標「SAM Audio Judge(SAJ)」を開発しました。

7078 字
読む →

双曲空間における階層情報を活用した話者照合のためのHAM-Softmax

従来の話者照合はユークリッド空間での学習が主流であったが、基本周波数やフォルマント構造といった話者特徴が持つ木構造のような階層的な情報を十分に表現できないという課題があった。本研究では、負の曲率を持ち有限の体積内で指数関数的なデータ配置が可能な双曲空間(ポアンカレ球モデル)を導入し、階層構造を効率的にモデル化するH-Softmaxと、クラス間の分離性を高めるマージン制約を加えたHAM-Softmaxを提案した。実験の結果、VoxCelebやCNCeleb等のデータセットにおいて、従来のSoftmaxやAM-Softmaxと比較して等価誤り率(EER)を大幅に削減することに成功し、特に複雑なクロスドメインデータにおいて高い性能と階層情報の保持能力を示した。

6320 字
読む →

マルチエージェントメカニズム設計による査読プロセスの再構築

現在の学術論文査読システムは、投稿数の急増と査読者のインセンティブ不一致により「共有地の悲劇」に直面しており、査読結果の不一致や大規模言語モデル(LLM)による質の低下が深刻な問題となっています。

5971 字
読む →