LLMコード生成を「仕様→テスト→関数」で測る:人間の介入がどこで効くかを追う実験設計
CURRANTEというVS Code拡張を使い、仕様記述とテスト精緻化への人間介入がLLMコード生成の正確さと効率にどう効くかを測る登録報告です。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
CURRANTEというVS Code拡張を使い、仕様記述とテスト精緻化への人間介入がLLMコード生成の正確さと効率にどう効くかを測る登録報告です。
EndoCoT は、拡散モデルに組み込んだ MLLM の思考状態を一度きりで固定せず、潜在空間で反復更新しながら推論を深める枠組みです。 中心には iterative thought guidance module と terminal thought grounding module があり、途中の思考を深めつつ、最後は正解テキストへ接地させて推論軌跡を崩れにくくします。 Maze、TSP、VSP、Sudoku で平均精度 92.1% を達成し、最強ベースラインを 8.3 ポイント上回りました。難しい設定では Maze-32 で 90%、Sudoku-35 で 95% と、複雑化に強い点も目立ちます。
COMIC は、キャラクター画像・音声・短い説明から、サタデー・ナイト・ライブ風の短いスケッチコメディ動画を全自動で作るエージェント型動画生成システムです。 企画、脚本、批評、編集、演出、レンダリング批評を複数エージェントに分け、しかも YouTube 上の視聴者エンゲージメントに合わせて批評家を選抜することで、「人が笑うか」に寄せた反復改善ループを作っています。 実験では agentic baseline や生の frontier video model を上回り、プロ制作スケッチに近い品質まで迫ったとされ、ユーモアのような主観タスクでも批評家の設計が性能を大きく左右することを示しました。
CREATE は、概念どうしのあいだに「新しくて意味のあるつながり」をどれだけ多様に見つけられるかを、Wikidata 上の経路探索として評価するベンチマークです。 単なる正誤判定ではなく、つながりの強さを測る specificity と、候補どうしの違いを測る diversity を統合した creative utility で採点し、創造性をある程度客観的に比べられる形にしました。 結果として GPT-5 や Gemini-3-pro などの frontier モデルが上位に来る一方、thinking model がトークンを多く使えば必ず有利になるわけではなく、creative prompting の上積みも限定的でした。
Agentic Critical Training(ACT)は、LLMエージェントに反省文をまねさせるのではなく、複数の行動候補のうちどちらが良いかを強化学習で判定させることで、行動の良し悪しを自律的に考える力を内在化させる枠組みです。 ALFWorld、WebShop、ScienceWorld の3ベンチで、模倣学習より平均 5.07 ポイント、通常の強化学習より平均 4.62 ポイント、既存の自己反省蒸留法より平均 2.42 ポイント改善しました。 しかも改善は agent benchmark の内側だけでなく OOD 設定や MATH-500 などの一般推論にも波及しており、エージェント環境での行動品質判定が、より広い reasoning 能力の訓練になり得ることを示しています。
この論文は、LLM の推論失敗を「身体性を伴う推論 / 非身体的推論」と「根本的失敗 / 領域固有の限界 / 頑健性の問題」の二軸で整理する包括サーベイです。
HumanLMは、応答の文体ではなく、信念・目標・価値観・立場・感情・伝え方という潜在状態を整合させることで、より本人らしいユーザーシミュレーションを目指す研究です。
本研究は、実際の機械翻訳ポストエディット案件から得られた 6,000 超の英語文と 9 個の翻訳候補を使い、翻訳品質予測の二つの系統、すなわち「原文側の難しさ予測」と「候補文側の品質推定」を同じ土台で見直したものです。 Kendall の順位相関で TER と COMET の両方を参照すると、原文側指標の当たり方は評価軸によって大きく変わり、候補文側の QE 指標も従来型 NMT には比較的合う一方、汎用 LLM の出力にはそのままでは合いにくいことが分かりました。 文書後半ほど訳質が落ちる document-level LLM の位置バイアスは統計的には確認されましたが、実務影響は小さく、むしろ重要なのは「どの品質概念を測りたいのか」を TER と COMET の違いまで含めて明示することだと示しています。
本研究は、LLM エージェントを「タスクを達成したか」だけでなく、「どう達成したか」まで見る Procedure-Aware Evaluation(PAE)を提案し、Utility・Efficiency・Interaction Quality・Procedural Integrity の 4 軸で評価します。 τ-bench で GPT-5、Kimi-K2-Thinking、Mistral-Large-3 を評価すると、従来の成功判定では見えなかった corrupt success が 27〜78% 含まれ、Pass^4 は gating 後に 2〜24% まで大きく落ち、モデル順位も変わりました。 航空券ドメインでの手動分析では、フラグ付けされた事例の 93.8〜95.2% が本当に問題のある成功と確認され、同時にベンチマーク側にもタスク定義漏れや報酬矛盾、シミュレータ由来の偶然成功があることを示しています。
KVSlimmer は、KV キャッシュ圧縮で経験則として語られてきた「Key は似やすく、Value は似にくい」という非対称性を、投影重みのスペクトルエネルギー分布から理論的に説明し、その性質に沿って圧縮を行う手法です。 既存法のような勾配ベース近似ではなく、前向き計算だけから exact Hessian を扱える閉形式へ落とし込み、gradient-free でメモリ効率と速度の両方を改善します。 Llama3.1-8B-Instruct では LongBench 平均を 0.92 改善しつつ、メモリ 29%、レイテンシ 28% を削減しており、KV キャッシュ削減が「安くなる代わりに性能が落ちる」という固定観念をかなり崩しています。