継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

LLM 推論計算は「広く探す」べきか「深く直す」べきか:AB-MCTS が両方を動的に切り替える研究

- 2503.04412 は、LLM の test-time scaling を repeated sampling のような「幅を広げる探索」だけに頼らず、外部フィードバックを見ながら「新しい候補を増やすか、既存候補を掘り下げるか」を動的に決める Adaptive Branching Monte Carlo Tree Search (AB-MCTS) を提案した研究です。 - 核心は、固定分岐の MCTS をそのまま使うのではなく、各ノードで go wider と go deeper を切り替えられる unbounded branching を導入し、Bayesian なスコア推定で探索と活用の配分を決める点にあります。 - LiveCodeBench、CodeContest、ARC-AGI、MLE-Bench で repeated sampling と standard MCTS を安定して上回り、特に平均順位で優勢でしたが、信頼できる評価器があることを前提にしており、API 回数以外の実コストまではまだ十分に扱っていません。

5756 字
読む →

長文文脈を一発で LoRA 化する Doc-to-LoRA 入門

- 2602.15902 は、長い文書を毎回コンテキストに入れ直す代わりに、その文書を読んで即座に LoRA アダプタへ変換し、以後の質問では元文書を再投入せずに答えられるようにする Doc-to-LoRA (D2L) を提案した研究です。 - 核心は、従来の context distillation をその都度最適化で回すのではなく、「文脈から LoRA を生成する処理そのもの」をハイパーネットワークとしてメタ学習し、1回の forward pass で近似する点にあります。 - Needle-in-a-Haystack では学習時より 4 倍超長い文脈でほぼ完全な検索性能を維持し、実 QA でも標準的な context distillation より速く・省メモリに内部化できる一方、学習自体は 8 台の H200 を 5 日使う重い前処理が必要です。

5695 字
読む →

LLM セキュリティコードレビューは「安心そうな説明」に流されるのか:確認バイアスを測り、攻撃可能性まで検証した研究

2603.18740 は、LLM を使ったセキュリティコードレビューが、変更内容そのものよりも「これは安全改善です」「バグはありません」といった事前説明に引きずられる確認バイアスを持つかを測った論文です。

5746 字
読む →

SOL-ExecBench:GPUカーネル最適化を「ハード限界との差」で測る新基準

SOL-ExecBench は、AI エージェントが GPU カーネルを最適化するとき、単なるソフトウェア実装比の高速化ではなく、ハードウェアの理論上限までどこまで近づけたかで測るベンチマークです。

5665 字
読む →

Box Maze:LLMの推論を「構造」で縛る推論制御アーキテクチャ

Box Maze は、大規模言語モデルの推論を、記憶への接地、構造化された推論、境界の強制という三層に分け、出力後ではなく推論過程そのものに制御を埋め込もうとする推論制御アーキテクチャです。 / 論文が示す主張は強く、50件の敵対的な場面を使った記号的シミュレーションでは、人間フィードバックによる強化学習を基準にした場合に約40%あった境界破綻率を 1% 未満まで下げたと報告しています。 / ただし検証はシミュレーションに限られ、著者自身も「経験的な機械学習研究ではなく、論理アーキテクチャの検証だ」と明言しています。読むべき点は完成品の性能より、推論信頼性を構造制御の問題として捉え直す視点です。

5661 字
読む →

NavTrust:壊れたセンサーと壊れた指示で、Embodied Navigation はどこまで崩れるか

NavTrust は、視覚と言語によるナビゲーションと物体目標ナビゲーションを同じ枠組みで評価しながら、RGB、深度、指示文の破損を系統的に注入して、実世界に近い条件でどれだけ信頼性が崩れるかを測るベンチマークです。

5682 字
読む →

VLMはロボットの動きの好みをどこまで読めるか:軌道選択で測る空間推論

視覚言語モデルが、ロボットの経路そのものに対する自然言語の好みをどこまで理解できるかを、軌道選択課題として系統的に測った研究です。single-query 方式と Qwen2.5-VL が強く、近接性にはかなり反応できる一方で、path style や幾何的比較にはまだ弱さが残ります。

8285 字
読む →

BoSS:能動学習の「理想的な選び方」を大規模に近似するオラクル

能動学習では、どのサンプルを次にラベル付けするかで性能が大きく変わりますが、既存戦略は条件ごとの当たり外れが大きいままです。BoSS は複数戦略から候補バッチを作り、その中で最も性能向上をもたらすものを選ぶことで、大規模条件でも使える強いオラクル基準を与えます。

5739 字
読む →

PsyCogMetrics AI Lab:LLM評価を認知科学と心理測定で組み直す設計研究

PsyCogMetrics AI Lab は、心理測定学と認知科学の方法論を取り込みつつ、クラウド上で使える統合評価プラットフォームとして設計された IT アーティファクトです。論文の核心は、評価結果そのものよりも、three-cycle Action Design Science によって LLM 評価基盤をどう設計すべきかを具体化した点にあります。

5655 字
読む →

GRPOの見落としを突く:正解と誤答の対比を学習に入れる BICC と RCC

GRPO はグループ平均との差で学習を進めますが、同じグループ内に自然に生まれる正解トレースと誤答トレースの対比を、そのままでは十分に使えていません。BICC と RCC はこの比較情報を直接学習に取り込み、追加サンプリングや補助モデルなしで推論精度と学習安定性を底上げする提案です。

5682 字
読む →