継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

PhysMoDPO:物理的にもっともらしく、指示にも忠実なヒューマノイド動作を選好最適化で鍛え直す

テキストから人の動きを作る拡散モデルは見た目の自然さでは強くなっていますが、実機や物理シミュレータへ移すと、足滑りやバランス崩れ、指示との不整合が露呈しやすいのが弱点でした。 PhysMoDPOは、Whole-Body Controller を訓練ループに直接組み込み、追従可能性や接触の自然さなどの物理報酬と、追従後もテキストや空間条件に合っているかというタスク報酬を使って、DPOで動作生成器を後学習する手法です。 HumanML3DやOMOMOではFIDやJerk、制御誤差が改善し、Unitree G1へのゼロショット転移でも、単純なSFTや既存手法より一貫して高い整合性と滑らかさを示しました。

5792 字
読む →

MXNorm:正規化のための集計を使い回して LLM 学習を軽くする

低精度化で行列積だけが速くなる一方、正規化のような縮約と要素演算は相対的に重くなっており、学習全体の新しいボトルネックになっています。 MXNormは、MXFP量子化の際にすでに計算しているブロックスケールを再利用して RMSNorm を近似し、正規化のための縮約サイズを32分の1に減らす設計です。 Llama 3 系の125M、1B、8B事前学習では RMSNorm とほぼ同等の損失と下流性能を保ちながら、単体カーネルで最大2.4倍、8Bブロック全体で1.3%、NVFP4では2.6%の速度向上を示しました。

5595 字
読む →

QMatSuite:計算を回すだけで終わらせず、実験結果を知識へ育てる材料科学エージェント基盤

計算材料科学のAIエージェントは、個々のシミュレーションをこなす力は高まってきましたが、失敗や成功の蓄積を次回以降へ活かす仕組みが弱く、研究者のように経験を知識へ変えることは苦手でした。 QMatSuiteは、各計算の知見を出典付きで保存し、次の計算前に検索し、専用の振り返りセッションで誤りを修正しながら、個別の発見を物質横断のパターンへ統合する仕組みを備えた公開基盤です。 6段階の量子力学シミュレーションでは、知識蓄積により推論の手間が67%減り、文献値からのずれは47%から3%へ改善しました。さらに未知の材料へ移しても、ずれ1%、パイプライン失敗ゼロを達成しています。

5569 字
読む →

VLMはロボットの動きの好みをどこまで読めるか:軌道選択で測る空間推論

視覚言語モデルが、ロボットの経路そのものに対する自然言語の好みをどこまで理解できるかを、軌道選択課題として系統的に測った研究です。single-query 方式と Qwen2.5-VL が強く、近接性にはかなり反応できる一方で、path style や幾何的比較にはまだ弱さが残ります。

8285 字
読む →

BoSS:能動学習の「理想的な選び方」を大規模に近似するオラクル

能動学習では、どのサンプルを次にラベル付けするかで性能が大きく変わりますが、既存戦略は条件ごとの当たり外れが大きいままです。BoSS は複数戦略から候補バッチを作り、その中で最も性能向上をもたらすものを選ぶことで、大規模条件でも使える強いオラクル基準を与えます。

5739 字
読む →

PsyCogMetrics AI Lab:LLM評価を認知科学と心理測定で組み直す設計研究

PsyCogMetrics AI Lab は、心理測定学と認知科学の方法論を取り込みつつ、クラウド上で使える統合評価プラットフォームとして設計された IT アーティファクトです。論文の核心は、評価結果そのものよりも、three-cycle Action Design Science によって LLM 評価基盤をどう設計すべきかを具体化した点にあります。

5655 字
読む →

GRPOの見落としを突く:正解と誤答の対比を学習に入れる BICC と RCC

GRPO はグループ平均との差で学習を進めますが、同じグループ内に自然に生まれる正解トレースと誤答トレースの対比を、そのままでは十分に使えていません。BICC と RCC はこの比較情報を直接学習に取り込み、追加サンプリングや補助モデルなしで推論精度と学習安定性を底上げする提案です。

5682 字
読む →

ESG-Bench:長大なESGレポートで幻覚を抑えるベンチマークと4段CoT学習

ESG レポートは長く複雑で、しかも規制や投資判断に直結するため、LLM がもっとも苦手な「長文から事実だけを抜く」課題がそのまま表面化します。 ESG-Bench は、実在の ESG レポートに基づく human-annotated QA と hallucination ラベルを備えたベンチマークで、LLM が答えるべき場面と「答えないべき」場面の両方を評価できるようにした点が特徴です。 さらに 4-step CoT を使った fine-tuning は、通常の prompting や単純な SFT より hallucination を強く抑え、しかもその改善が HaluEval や BioASQ のような他ベンチにも波及することが示されました。

5664 字
読む →

エージェント型人工知能における意味不変性の評価

意味が同じ入力変形に対して推論がどれだけ安定するかを「意味不変性」として捉え、エージェント型AIの信頼性を測る独立した評価軸として提示しました。 / 8種類の意味保存変換を用いた変成的テストにより、7つの基盤モデルを19問・8科学領域で比較し、固定ベンチマークの正答率だけでは見えない脆さを可視化しました。

5674 字
読む →

少数の critical weights が精度とプライバシー漏えいを同時に握る

メンバーシップ推論攻撃の脆弱性はモデル全体ではなく、ごく少数の重みに集中しており、その多くは精度にも重要でした。論文は、危険な重みを削除する代わりに初期値へ巻き戻して固定し、残りだけを微調整する CWRF を提案し、LiRA や RMIA に対する耐性と精度の両立を示します。

5705 字
読む →