AI研究 2026-03-15 Social-R1:LLMの「答え先行の後付け推論」を抑え、人間らしい社会的推論を鍛える ToMBench-Hardで社会的推論のショートカットを露出させ、SIPに沿う多次元報酬で推論過程全体を監督するSocial-R1を提案した論文です。 LLM Reasoning Evaluation 6145 字 読む → 保存
AI研究 2026-03-15 LLMコード生成を「仕様→テスト→関数」で測る:人間の介入がどこで効くかを追う実験設計 CURRANTEというVS Code拡張を使い、仕様記述とテスト精緻化への人間介入がLLMコード生成の正確さと効率にどう効くかを測る登録報告です。 LLM Reasoning Evaluation 6520 字 読む → 保存