継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

線形化注意はなぜ「効く」と同時に「危うい」のか:Influence Malleability が示す二面性

線形化した注意機構は、幅を十分に大きくしても無限幅NTKへ素直に近づかず、ReLU系のような「固定カーネルに近い学習」へ入らないことが、理論と実験の両方から示されます。 その理由は、注意変換が Gram 行列の条件数を三乗で増幅し、NTK 収束に必要な幅を実用外の大きさまで押し上げるためで、その非収束性が訓練データへの依存の変わりやすさ、すなわち influence malleability として観測されます。 この性質は、データ構造に合うと近似誤差を下げる源泉である一方、訓練データを少し細工されただけで reliance が大きく変わる脆さの源泉でもあり、注意の強みと弱みが同じ場所から生まれていると整理されます。

6785 字
読む →

CRYSTAL:最終回答だけでは見えないマルチモーダル推論の中身を、途中ステップごとに診断するベンチマーク

最終回答だけを見る既存評価では、たまたま当たった「ラッキー正解」と、本当に筋の通った推論を区別できません。 CRYSTAL は、画像と言語をまたぐ推論を途中ステップ単位で評価する 6,372 問のベンチマークで、Match F1 と Ordered Match F1 により「何をどこまで合っているか」「順序まで妥当か」を測ります。 20種類のモデル評価では、精度では見えない cherry-picking や順序崩れが広く確認され、さらに CPR と CPR-Curriculum により、手作業の中間注釈なしでも推論品質を改善できる可能性が示されています。

5552 字
読む →

モデルが静かに壊れ始めたときにどう気づくか:いつ止めても正しい校正監視 PITMonitor

運用中の確率モデルを毎日監視するなら、固定標本検定を繰り返すだけでは、モデルが健全でもいずれ誤警報が出ます。PITMonitor はそこを正面から扱い、監視期間を事前に決めなくても「いつか誤報する確率」を水準 α で抑える校正監視法です。 監視対象を誤差率や残差平均ではなく、予測分布と実データの関係を直接表す PIT に置くことで、精度が変わらなくても起こる過信・過小信頼・尾部確率のズレまで拾えるようにしています。 FriedmanDrift ベンチでは、グローバルな急変・緩慢変化では強いベースラインと競れる検出率を保ちつつ、偽陽性率を 3.8% に抑えました。一方で局所的かつ多段階に広がるドリフトでは遅延が大きく、そこが主要な弱点として残ります。

5963 字
読む →

マルチモーダルCBMを忠実にするには何が要るのか:漏洩と概念検出を同時に抑える f-CBM

画像とテキストをまたぐ Concept Bottleneck Model(CBM)では、概念が正しく検出されるだけでは不十分で、概念ベクトルの中に本来の概念以外の予測情報が紛れ込む「漏洩」を抑えないと説明の忠実性が崩れます。 提案手法 f-CBM は、漏洩を直接減らす微分可能な損失と、線形層より表現力の高い KAN 予測層を組み合わせ、概念検出・最終精度・漏洩低減の三つを同時に押し上げる設計を取ります。 実験では、4つのデータセットと2種類の CLIP バックボーンで、競合手法より総合順位が良く、概念介入でも唯一安定して改善するため、「見えている概念説明が本当に意思決定に効いている」状態へ一歩近づいた点が重要です。

5962 字
読む →

PhysMoDPO:物理的にもっともらしく、指示にも忠実なヒューマノイド動作を選好最適化で鍛え直す

テキストから人の動きを作る拡散モデルは見た目の自然さでは強くなっていますが、実機や物理シミュレータへ移すと、足滑りやバランス崩れ、指示との不整合が露呈しやすいのが弱点でした。 PhysMoDPOは、Whole-Body Controller を訓練ループに直接組み込み、追従可能性や接触の自然さなどの物理報酬と、追従後もテキストや空間条件に合っているかというタスク報酬を使って、DPOで動作生成器を後学習する手法です。 HumanML3DやOMOMOではFIDやJerk、制御誤差が改善し、Unitree G1へのゼロショット転移でも、単純なSFTや既存手法より一貫して高い整合性と滑らかさを示しました。

5792 字
読む →

MXNorm:正規化のための集計を使い回して LLM 学習を軽くする

低精度化で行列積だけが速くなる一方、正規化のような縮約と要素演算は相対的に重くなっており、学習全体の新しいボトルネックになっています。 MXNormは、MXFP量子化の際にすでに計算しているブロックスケールを再利用して RMSNorm を近似し、正規化のための縮約サイズを32分の1に減らす設計です。 Llama 3 系の125M、1B、8B事前学習では RMSNorm とほぼ同等の損失と下流性能を保ちながら、単体カーネルで最大2.4倍、8Bブロック全体で1.3%、NVFP4では2.6%の速度向上を示しました。

5595 字
読む →

QMatSuite:計算を回すだけで終わらせず、実験結果を知識へ育てる材料科学エージェント基盤

計算材料科学のAIエージェントは、個々のシミュレーションをこなす力は高まってきましたが、失敗や成功の蓄積を次回以降へ活かす仕組みが弱く、研究者のように経験を知識へ変えることは苦手でした。 QMatSuiteは、各計算の知見を出典付きで保存し、次の計算前に検索し、専用の振り返りセッションで誤りを修正しながら、個別の発見を物質横断のパターンへ統合する仕組みを備えた公開基盤です。 6段階の量子力学シミュレーションでは、知識蓄積により推論の手間が67%減り、文献値からのずれは47%から3%へ改善しました。さらに未知の材料へ移しても、ずれ1%、パイプライン失敗ゼロを達成しています。

5569 字
読む →