タグ: cs.LG | Cog AI Archive

AI研究 2026-03-21

SOL-ExecBench：GPUカーネル最適化を「ハード限界との差」で測る新基準

SOL-ExecBench は、AI エージェントが GPU カーネルを最適化するとき、単なるソフトウェア実装比の高速化ではなく、ハードウェアの理論上限までどこまで近づけたかで測るベンチマークです。

5665 字

読む →

AI研究 2026-03-21

NavTrust：壊れたセンサーと壊れた指示で、Embodied Navigation はどこまで崩れるか

NavTrust は、視覚と言語によるナビゲーションと物体目標ナビゲーションを同じ枠組みで評価しながら、RGB、深度、指示文の破損を系統的に注入して、実世界に近い条件でどれだけ信頼性が崩れるかを測るベンチマークです。

5682 字

読む →

AI研究 2026-03-16

BoSS：能動学習の「理想的な選び方」を大規模に近似するオラクル

能動学習では、どのサンプルを次にラベル付けするかで性能が大きく変わりますが、既存戦略は条件ごとの当たり外れが大きいままです。BoSS は複数戦略から候補バッチを作り、その中で最も性能向上をもたらすものを選ぶことで、大規模条件でも使える強いオラクル基準を与えます。

5739 字

読む →

AI研究 2026-03-16

ZO-SAM：スパース学習で SAM の効き目を残したまま計算負荷を抑える

高い疎性では勾配が荒れやすく、スパース学習は収束も汎化も不安定になりがちです。ZO-SAM は SAM の摂動生成だけをゼロ次最適化に置き換え、平坦な解を探す利点を残しながら計算負荷を抑えることで、精度・収束・頑健性の三つを同時に改善しようとします。

5676 字

読む →

AI研究 2026-03-16

少数の critical weights が精度とプライバシー漏えいを同時に握る

メンバーシップ推論攻撃の脆弱性はモデル全体ではなく、ごく少数の重みに集中しており、その多くは精度にも重要でした。論文は、危険な重みを削除する代わりに初期値へ巻き戻して固定し、残りだけを微調整する CWRF を提案し、LiRA や RMIA に対する耐性と精度の両立を示します。

5705 字

読む →

AI研究 2026-03-10

Agentic Critical Training：LLMエージェントに自己反省と自律的推論を与える強化学習

Agentic Critical Training（ACT）は、LLMエージェントに反省文をまねさせるのではなく、複数の行動候補のうちどちらが良いかを強化学習で判定させることで、行動の良し悪しを自律的に考える力を内在化させる枠組みです。 ALFWorld、WebShop、ScienceWorld の3ベンチで、模倣学習より平均 5.07 ポイント、通常の強化学習より平均 4.62 ポイント、既存の自己反省蒸留法より平均 2.42 ポイント改善しました。しかも改善は agent benchmark の内側だけでなく OOD 設定や MATH-500 などの一般推論にも波及しており、エージェント環境での行動品質判定が、より広い reasoning 能力の訓練になり得ることを示しています。

5625 字

読む →

AI研究 2026-03-07

LLM推論失敗の全体像：何が壊れ、どこが脆く、どう直すべきかを整理する包括サーベイ

この論文は、LLM の推論失敗を「身体性を伴う推論 / 非身体的推論」と「根本的失敗 / 領域固有の限界 / 頑健性の問題」の二軸で整理する包括サーベイです。

5733 字

読む →

AI研究 2026-02-28

SOTAlign：少数ペアと大量の非ペアで視覚と言語をそろえる半教師ありアラインメント

SOTAlign は、少数の画像・テキスト対と大量の非ペアデータを使って、視覚と言語の表現空間をそろえる半教師あり手法です。線形教師で作った粗い共通幾何を KLOT により非ペア側へ移し、検索やゼロショット分類で既存手法を広く上回ります。

5679 字

読む →

AI研究 2026-02-28

SteuerLLM：税法では「大きい汎用モデル」より「小さい専門モデル」が勝つ

SteuerEx は、実際のドイツ大学税法試験から構築された公開ベンチマークです。これに特化した 28B の SteuerLLM は、72B 級の汎用 instruction-tuned モデルや GPT-4o-mini を上回り、税法ではサイズより専門特化が効くことを示しました。

5676 字

読む →

AI研究 2026-02-27

楽観的プライマル・デュアルで多目的セーフRLHFの最終反復収束を扱う普遍的枠組みとOPD

期待報酬の制約を伴う多目的セーフRLHFは方策と非負の双対変数の鞍点問題として書けますが、標準的な同時プライマル・デュアル更新は最終反復が振動して不安定になりやすく、学習の最後の方策をそのまま配備する運用と噛み合いにくいです。

6172 字

読む →

生成AI研究を、要点から追う。

最新の記事

SOL-ExecBench：GPUカーネル最適化を「ハード限界との差」で測る新基準

NavTrust：壊れたセンサーと壊れた指示で、Embodied Navigation はどこまで崩れるか

BoSS：能動学習の「理想的な選び方」を大規模に近似するオラクル

ZO-SAM：スパース学習で SAM の効き目を残したまま計算負荷を抑える

少数の critical weights が精度とプライバシー漏えいを同時に握る

Agentic Critical Training：LLMエージェントに自己反省と自律的推論を与える強化学習

LLM推論失敗の全体像：何が壊れ、どこが脆く、どう直すべきかを整理する包括サーベイ

SOTAlign：少数ペアと大量の非ペアで視覚と言語をそろえる半教師ありアラインメント

SteuerLLM：税法では「大きい汎用モデル」より「小さい専門モデル」が勝つ

楽観的プライマル・デュアルで多目的セーフRLHFの最終反復収束を扱う普遍的枠組みとOPD