継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

ESG-Bench:長大なESGレポートで幻覚を抑えるベンチマークと4段CoT学習

ESG レポートは長く複雑で、しかも規制や投資判断に直結するため、LLM がもっとも苦手な「長文から事実だけを抜く」課題がそのまま表面化します。 ESG-Bench は、実在の ESG レポートに基づく human-annotated QA と hallucination ラベルを備えたベンチマークで、LLM が答えるべき場面と「答えないべき」場面の両方を評価できるようにした点が特徴です。 さらに 4-step CoT を使った fine-tuning は、通常の prompting や単純な SFT より hallucination を強く抑え、しかもその改善が HaluEval や BioASQ のような他ベンチにも波及することが示されました。

5664 字
読む →

エージェント型人工知能における意味不変性の評価

意味が同じ入力変形に対して推論がどれだけ安定するかを「意味不変性」として捉え、エージェント型AIの信頼性を測る独立した評価軸として提示しました。 / 8種類の意味保存変換を用いた変成的テストにより、7つの基盤モデルを19問・8科学領域で比較し、固定ベンチマークの正答率だけでは見えない脆さを可視化しました。

5674 字
読む →

少数の critical weights が精度とプライバシー漏えいを同時に握る

メンバーシップ推論攻撃の脆弱性はモデル全体ではなく、ごく少数の重みに集中しており、その多くは精度にも重要でした。論文は、危険な重みを削除する代わりに初期値へ巻き戻して固定し、残りだけを微調整する CWRF を提案し、LiRA や RMIA に対する耐性と精度の両立を示します。

5705 字
読む →

Visual-ERM:視覚的等価性で vision-to-code を鍛える報酬モデル

chart・table・SVG などの vision-to-code タスクでは、出力コードが文字列として近いだけでは足りず、最終的に描画された見た目がどれだけ元画像に忠実かを見なければ本当の品質は測れません。 Visual-ERM は、生成コードをレンダリングした画像と元画像を直接比較し、差分の種類・位置・重要度まで含むきめ細かい報酬を返すことで、強化学習の報酬信号を視覚空間で整合させます。 その結果、Qwen3-VL-8B-Instruct の chart-to-code は +8.4、table/SVG でも平均 +2.7 / +4.1 改善し、VC-RewardBench では 8B でありながら 235B 級のモデルを上回る評価性能を示しました。

5744 字
読む →

SciMDR:科学論文の長文・図表推論を、忠実さと現実性を両立した合成データで鍛える

科学論文向けのマルチモーダル推論データを作るときは、量を増やすと幻覚が増えやすく、忠実さを優先すると現実の長大文書らしさが失われるという板挟みがある。 SciMDR は、この板挟みを「小さな根拠断片で正確に生成する段階」と「それを論文全体へ再配置して実運用に近づける段階」に分けることで、30万件規模と高忠実性と文書全体の複雑さを同時に狙う。 Qwen2.5-VL-7B を SciMDR で学習すると、独自ベンチ SCIMDR-Eval で 19.8 から 49.1 へ伸び、GPT-5.2 の 49.9 に迫る水準まで到達した。

5730 字
読む →

COMIC:エージェントでスケッチコメディ動画を自動生成する

COMIC は、キャラクター画像・音声・短い説明から、サタデー・ナイト・ライブ風の短いスケッチコメディ動画を全自動で作るエージェント型動画生成システムです。 企画、脚本、批評、編集、演出、レンダリング批評を複数エージェントに分け、しかも YouTube 上の視聴者エンゲージメントに合わせて批評家を選抜することで、「人が笑うか」に寄せた反復改善ループを作っています。 実験では agentic baseline や生の frontier video model を上回り、プロ制作スケッチに近い品質まで迫ったとされ、ユーモアのような主観タスクでも批評家の設計が性能を大きく左右することを示しました。

5762 字
読む →

Agentic Critical Training:LLMエージェントに自己反省と自律的推論を与える強化学習

Agentic Critical Training(ACT)は、LLMエージェントに反省文をまねさせるのではなく、複数の行動候補のうちどちらが良いかを強化学習で判定させることで、行動の良し悪しを自律的に考える力を内在化させる枠組みです。 ALFWorld、WebShop、ScienceWorld の3ベンチで、模倣学習より平均 5.07 ポイント、通常の強化学習より平均 4.62 ポイント、既存の自己反省蒸留法より平均 2.42 ポイント改善しました。 しかも改善は agent benchmark の内側だけでなく OOD 設定や MATH-500 などの一般推論にも波及しており、エージェント環境での行動品質判定が、より広い reasoning 能力の訓練になり得ることを示しています。

5625 字
読む →

LLM推論失敗の全体像:何が壊れ、どこが脆く、どう直すべきかを整理する包括サーベイ

この論文は、LLM の推論失敗を「身体性を伴う推論 / 非身体的推論」と「根本的失敗 / 領域固有の限界 / 頑健性の問題」の二軸で整理する包括サーベイです。

5733 字
読む →

HumanLM:表層の文体模倣ではなく「状態の整合」で本人らしい応答を再現するユーザーシミュレータ

HumanLMは、応答の文体ではなく、信念・目標・価値観・立場・感情・伝え方という潜在状態を整合させることで、より本人らしいユーザーシミュレーションを目指す研究です。

5785 字
読む →

Procedure-Aware Evaluation:LLMエージェントの「不正な成功」を暴く

本研究は、LLM エージェントを「タスクを達成したか」だけでなく、「どう達成したか」まで見る Procedure-Aware Evaluation(PAE)を提案し、Utility・Efficiency・Interaction Quality・Procedural Integrity の 4 軸で評価します。 τ-bench で GPT-5、Kimi-K2-Thinking、Mistral-Large-3 を評価すると、従来の成功判定では見えなかった corrupt success が 27〜78% 含まれ、Pass^4 は gating 後に 2〜24% まで大きく落ち、モデル順位も変わりました。 航空券ドメインでの手動分析では、フラグ付けされた事例の 93.8〜95.2% が本当に問題のある成功と確認され、同時にベンチマーク側にもタスク定義漏れや報酬矛盾、シミュレータ由来の偶然成功があることを示しています。

5625 字
読む →