継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

LLM憲法的マルチエージェント統治:協力を増やしつつ自律性と公正性を守れるか

LLM が集団の協力行動を高める影響戦略を作れてしまう一方で、その協力が自律性や公正性を壊した「操作された協力」になり得る点を問題にしています。 / 著者らは Constitutional Multi-Agent Governance(CMAG)という二段階の統治枠組みを提案し、禁止テーマや誇張表現を弾く hard constraints と、協力・自律性・整合性・公平性の釣り合いで選ぶ soft optimization を組み合わせます。 / 80エージェントのスケールフリーネットワーク実験では、無制約最適化が生の協力率では最高でも倫理協力スコアでは最悪になり、CMAG は協力率を少し落とす代わりに自律性・整合性・公平性を大きく守る結果になりました。

5714 字
読む →

NAIT:命令チューニング用データを「ニューロン活性の一致」で選び直すと、少量データでも性能を底上げできる

命令チューニング用データを表面的な品質指標ではなく、モデル内部のニューロン活性パターンで選ぶ枠組み NAIT を提案しています。狙いは、特定能力を伸ばすのに本当に効くデータだけを、小さく安く選び抜くことです。

5651 字
読む →

Visual-ERM:視覚的等価性で vision-to-code を鍛える報酬モデル

chart・table・SVG などの vision-to-code タスクでは、出力コードが文字列として近いだけでは足りず、最終的に描画された見た目がどれだけ元画像に忠実かを見なければ本当の品質は測れません。 Visual-ERM は、生成コードをレンダリングした画像と元画像を直接比較し、差分の種類・位置・重要度まで含むきめ細かい報酬を返すことで、強化学習の報酬信号を視覚空間で整合させます。 その結果、Qwen3-VL-8B-Instruct の chart-to-code は +8.4、table/SVG でも平均 +2.7 / +4.1 改善し、VC-RewardBench では 8B でありながら 235B 級のモデルを上回る評価性能を示しました。

5744 字
読む →

SciMDR:科学論文の長文・図表推論を、忠実さと現実性を両立した合成データで鍛える

科学論文向けのマルチモーダル推論データを作るときは、量を増やすと幻覚が増えやすく、忠実さを優先すると現実の長大文書らしさが失われるという板挟みがある。 SciMDR は、この板挟みを「小さな根拠断片で正確に生成する段階」と「それを論文全体へ再配置して実運用に近づける段階」に分けることで、30万件規模と高忠実性と文書全体の複雑さを同時に狙う。 Qwen2.5-VL-7B を SciMDR で学習すると、独自ベンチ SCIMDR-Eval で 19.8 から 49.1 へ伸び、GPT-5.2 の 49.9 に迫る水準まで到達した。

5730 字
読む →

COMIC:エージェントでスケッチコメディ動画を自動生成する

COMIC は、キャラクター画像・音声・短い説明から、サタデー・ナイト・ライブ風の短いスケッチコメディ動画を全自動で作るエージェント型動画生成システムです。 企画、脚本、批評、編集、演出、レンダリング批評を複数エージェントに分け、しかも YouTube 上の視聴者エンゲージメントに合わせて批評家を選抜することで、「人が笑うか」に寄せた反復改善ループを作っています。 実験では agentic baseline や生の frontier video model を上回り、プロ制作スケッチに近い品質まで迫ったとされ、ユーモアのような主観タスクでも批評家の設計が性能を大きく左右することを示しました。

5762 字
読む →

Agentic Critical Training:LLMエージェントに自己反省と自律的推論を与える強化学習

Agentic Critical Training(ACT)は、LLMエージェントに反省文をまねさせるのではなく、複数の行動候補のうちどちらが良いかを強化学習で判定させることで、行動の良し悪しを自律的に考える力を内在化させる枠組みです。 ALFWorld、WebShop、ScienceWorld の3ベンチで、模倣学習より平均 5.07 ポイント、通常の強化学習より平均 4.62 ポイント、既存の自己反省蒸留法より平均 2.42 ポイント改善しました。 しかも改善は agent benchmark の内側だけでなく OOD 設定や MATH-500 などの一般推論にも波及しており、エージェント環境での行動品質判定が、より広い reasoning 能力の訓練になり得ることを示しています。

5625 字
読む →

LLM推論失敗の全体像:何が壊れ、どこが脆く、どう直すべきかを整理する包括サーベイ

この論文は、LLM の推論失敗を「身体性を伴う推論 / 非身体的推論」と「根本的失敗 / 領域固有の限界 / 頑健性の問題」の二軸で整理する包括サーベイです。

5733 字
読む →

HumanLM:表層の文体模倣ではなく「状態の整合」で本人らしい応答を再現するユーザーシミュレータ

HumanLMは、応答の文体ではなく、信念・目標・価値観・立場・感情・伝え方という潜在状態を整合させることで、より本人らしいユーザーシミュレーションを目指す研究です。

5785 字
読む →

Procedure-Aware Evaluation:LLMエージェントの「不正な成功」を暴く

本研究は、LLM エージェントを「タスクを達成したか」だけでなく、「どう達成したか」まで見る Procedure-Aware Evaluation(PAE)を提案し、Utility・Efficiency・Interaction Quality・Procedural Integrity の 4 軸で評価します。 τ-bench で GPT-5、Kimi-K2-Thinking、Mistral-Large-3 を評価すると、従来の成功判定では見えなかった corrupt success が 27〜78% 含まれ、Pass^4 は gating 後に 2〜24% まで大きく落ち、モデル順位も変わりました。 航空券ドメインでの手動分析では、フラグ付けされた事例の 93.8〜95.2% が本当に問題のある成功と確認され、同時にベンチマーク側にもタスク定義漏れや報酬矛盾、シミュレータ由来の偶然成功があることを示しています。

5625 字
読む →

良いクエリとは何か:人間が混乱しやすい言語特徴がLLMの幻覚に与える影響を測る

LLMの幻覚リスクをクエリの言語特徴(22次元)として測り、どの問い方が高リスクかを大規模実データで示した研究です。

5701 字
読む →