継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

LLM 推論計算は「広く探す」べきか「深く直す」べきか:AB-MCTS が両方を動的に切り替える研究

- 2503.04412 は、LLM の test-time scaling を repeated sampling のような「幅を広げる探索」だけに頼らず、外部フィードバックを見ながら「新しい候補を増やすか、既存候補を掘り下げるか」を動的に決める Adaptive Branching Monte Carlo Tree Search (AB-MCTS) を提案した研究です。 - 核心は、固定分岐の MCTS をそのまま使うのではなく、各ノードで go wider と go deeper を切り替えられる unbounded branching を導入し、Bayesian なスコア推定で探索と活用の配分を決める点にあります。 - LiveCodeBench、CodeContest、ARC-AGI、MLE-Bench で repeated sampling と standard MCTS を安定して上回り、特に平均順位で優勢でしたが、信頼できる評価器があることを前提にしており、API 回数以外の実コストまではまだ十分に扱っていません。

5756 字
読む →

長文文脈を一発で LoRA 化する Doc-to-LoRA 入門

- 2602.15902 は、長い文書を毎回コンテキストに入れ直す代わりに、その文書を読んで即座に LoRA アダプタへ変換し、以後の質問では元文書を再投入せずに答えられるようにする Doc-to-LoRA (D2L) を提案した研究です。 - 核心は、従来の context distillation をその都度最適化で回すのではなく、「文脈から LoRA を生成する処理そのもの」をハイパーネットワークとしてメタ学習し、1回の forward pass で近似する点にあります。 - Needle-in-a-Haystack では学習時より 4 倍超長い文脈でほぼ完全な検索性能を維持し、実 QA でも標準的な context distillation より速く・省メモリに内部化できる一方、学習自体は 8 台の H200 を 5 日使う重い前処理が必要です。

5695 字
読む →

LLM セキュリティコードレビューは「安心そうな説明」に流されるのか:確認バイアスを測り、攻撃可能性まで検証した研究

2603.18740 は、LLM を使ったセキュリティコードレビューが、変更内容そのものよりも「これは安全改善です」「バグはありません」といった事前説明に引きずられる確認バイアスを持つかを測った論文です。

5746 字
読む →

SOL-ExecBench:GPUカーネル最適化を「ハード限界との差」で測る新基準

SOL-ExecBench は、AI エージェントが GPU カーネルを最適化するとき、単なるソフトウェア実装比の高速化ではなく、ハードウェアの理論上限までどこまで近づけたかで測るベンチマークです。

5665 字
読む →

Box Maze:LLMの推論を「構造」で縛る推論制御アーキテクチャ

Box Maze は、大規模言語モデルの推論を、記憶への接地、構造化された推論、境界の強制という三層に分け、出力後ではなく推論過程そのものに制御を埋め込もうとする推論制御アーキテクチャです。 / 論文が示す主張は強く、50件の敵対的な場面を使った記号的シミュレーションでは、人間フィードバックによる強化学習を基準にした場合に約40%あった境界破綻率を 1% 未満まで下げたと報告しています。 / ただし検証はシミュレーションに限られ、著者自身も「経験的な機械学習研究ではなく、論理アーキテクチャの検証だ」と明言しています。読むべき点は完成品の性能より、推論信頼性を構造制御の問題として捉え直す視点です。

5661 字
読む →

NavTrust:壊れたセンサーと壊れた指示で、Embodied Navigation はどこまで崩れるか

NavTrust は、視覚と言語によるナビゲーションと物体目標ナビゲーションを同じ枠組みで評価しながら、RGB、深度、指示文の破損を系統的に注入して、実世界に近い条件でどれだけ信頼性が崩れるかを測るベンチマークです。

5682 字
読む →

線形化注意はなぜ「効く」と同時に「危うい」のか:Influence Malleability が示す二面性

線形化した注意機構は、幅を十分に大きくしても無限幅NTKへ素直に近づかず、ReLU系のような「固定カーネルに近い学習」へ入らないことが、理論と実験の両方から示されます。 その理由は、注意変換が Gram 行列の条件数を三乗で増幅し、NTK 収束に必要な幅を実用外の大きさまで押し上げるためで、その非収束性が訓練データへの依存の変わりやすさ、すなわち influence malleability として観測されます。 この性質は、データ構造に合うと近似誤差を下げる源泉である一方、訓練データを少し細工されただけで reliance が大きく変わる脆さの源泉でもあり、注意の強みと弱みが同じ場所から生まれていると整理されます。

6785 字
読む →

CRYSTAL:最終回答だけでは見えないマルチモーダル推論の中身を、途中ステップごとに診断するベンチマーク

最終回答だけを見る既存評価では、たまたま当たった「ラッキー正解」と、本当に筋の通った推論を区別できません。 CRYSTAL は、画像と言語をまたぐ推論を途中ステップ単位で評価する 6,372 問のベンチマークで、Match F1 と Ordered Match F1 により「何をどこまで合っているか」「順序まで妥当か」を測ります。 20種類のモデル評価では、精度では見えない cherry-picking や順序崩れが広く確認され、さらに CPR と CPR-Curriculum により、手作業の中間注釈なしでも推論品質を改善できる可能性が示されています。

5552 字
読む →

モデルが静かに壊れ始めたときにどう気づくか:いつ止めても正しい校正監視 PITMonitor

運用中の確率モデルを毎日監視するなら、固定標本検定を繰り返すだけでは、モデルが健全でもいずれ誤警報が出ます。PITMonitor はそこを正面から扱い、監視期間を事前に決めなくても「いつか誤報する確率」を水準 α で抑える校正監視法です。 監視対象を誤差率や残差平均ではなく、予測分布と実データの関係を直接表す PIT に置くことで、精度が変わらなくても起こる過信・過小信頼・尾部確率のズレまで拾えるようにしています。 FriedmanDrift ベンチでは、グローバルな急変・緩慢変化では強いベースラインと競れる検出率を保ちつつ、偽陽性率を 3.8% に抑えました。一方で局所的かつ多段階に広がるドリフトでは遅延が大きく、そこが主要な弱点として残ります。

5963 字
読む →

マルチモーダルCBMを忠実にするには何が要るのか:漏洩と概念検出を同時に抑える f-CBM

画像とテキストをまたぐ Concept Bottleneck Model(CBM)では、概念が正しく検出されるだけでは不十分で、概念ベクトルの中に本来の概念以外の予測情報が紛れ込む「漏洩」を抑えないと説明の忠実性が崩れます。 提案手法 f-CBM は、漏洩を直接減らす微分可能な損失と、線形層より表現力の高い KAN 予測層を組み合わせ、概念検出・最終精度・漏洩低減の三つを同時に押し上げる設計を取ります。 実験では、4つのデータセットと2種類の CLIP バックボーンで、競合手法より総合順位が良く、概念介入でも唯一安定して改善するため、「見えている概念説明が本当に意思決定に効いている」状態へ一歩近づいた点が重要です。

5962 字
読む →