Cog AI Archive

AI研究 2026-03-17

OpenSWEは何を変えたのか：SWEエージェント訓練を支える4.5万件の実行環境と難度キュレーション

ソフトウェアエージェントの学習で本当に足りていないのは、コード断片ではなく、テスト実行と修正の反復を伴う「動く環境」です。OpenSWEは12.8kリポジトリから45,320件の実行可能Docker環境を公開し、その生成インフラまで含めて透明化しました。狙いは規模の誇示だけではありません。PRとIssueの不整合や、説明文を読めば答えがほぼ分かる trivial な課題を除き、「学習信号としてちょうどよい難しさ」の環境だけを残す difficulty-aware filtering が核心です。その結果、OpenSWEで訓練した32B/72BモデルはSWE-bench Verifiedで62.4%/66.0%を達成し、同系統の既存データより強く、しかも数学推論で最大12点、科学ベンチで最大5点の外部改善まで示しました。

5889 字

読む →

AI研究 2026-03-17

拡散型言語モデルの並列復号を依存関係つきで進める：自己注意から独立集合を選ぶ DAPD

拡散型言語モデルは複数トークンを同時に埋め戻せるのが強みですが、各位置の確率だけを見て並列更新すると、互いに強く依存した語を同時に確定して全体が不整合になりやすいという弱点があります。 DAPD は、自己注意からマスク位置間の依存グラフを作り、強く結びついた位置を避けながら独立集合だけを選んで同時にマスク解除する、追加学習不要の並列復号法です。 LLaDA と Dream で精度とステップ数の両立を改善し、ParallelBench では LLaDA の逐次生成に近い精度を保ちながら平均66.2 step まで短縮し、3.87倍の高速化を達成しました。

5930 字

読む →

AI研究 2026-03-17

ARL-Tangram：エージェント型強化学習の外部資源を「行動単位」でさばく資源管理基盤

エージェント型強化学習では、GPUだけでなくCPU、報酬モデルGPU、API枠、検索やコード実行環境など外部資源の使い方が学習効率を大きく左右しますが、従来は軌跡単位・タスク単位の静的な過剰確保が多く、無駄が大きい状態でした。 ARL-Tangramは、外部資源呼び出しを action-level、つまり個々の原子的な操作単位へ分解し、資源要求を統一表現したうえで、弾力的に再配分する資源管理システムです。実タスク評価では、平均ACTを最大4.3倍改善し、学習ステップ時間を最大1.5倍短縮し、外部資源コストを最大71.2%削減しました。MiMo 系モデルの学習にも実際に投入されています。

5602 字

読む →

AI研究 2026-03-17

SAW：4つの軽量条件で腹腔鏡手技動画を制御生成する外科ワールドモデルへの一歩

外科AIでは、まれな手技の学習データ不足と、現実に近いシミュレーション不足が同時にボトルネックになっており、動画生成がその橋渡し役として期待されています。 SAWは、言語指示、最初の1フレーム、組織アフォーダンス、器具先端の2次元軌跡という4つの軽量条件だけで、腹腔鏡手技動画を制御生成する拡散モデルです。 12,044本の手技クリップで学習した結果、時間的一貫性で既存法を大きく上回り、希少手技の認識精度改善やシミュレータ由来軌跡からの映像生成にもつながることを示しました。

5597 字

読む →

AI研究 2026-03-17

ESPIRE：VLMの身体化空間推論を「位置特定」と「実行」に分けて診断するベンチマーク

ESPIRE は、Vision-Language Model の身体化空間推論を、静的なVQAではなく、物理シミュレーション上のロボット課題として評価する診断ベンチマークであり、位置特定と動作実行をどちらも生成問題として扱います。 148種類の空間推論タイプ、65の命令ファミリ、計2,220タスクという広い設計により、距離・向き・関係・参照枠のどこで崩れるかを細かく見られるようにしています。実験では、VLMは概して「対象がどこにあるか」はそこそこ分かる一方、「そこにどう手を入れ、どの向きで扱うか」は大きく弱く、特に orientation reasoning と place タスクが深いボトルネックであることが示されました。

5895 字

読む →

AI研究 2026-03-17

Webバイブコーディングはデザインを均質化するのか：摩擦なき生成が創造性を削る仕組みを問い直す

Web制作の「バイブコーディング」は、コードを書かずに雰囲気や目的を自然言語で伝えるだけでサイトを作れる一方、LLMが学習済みの支配的な美意識を既定値として流し込みやすく、表現の多様性を狭める危険があります。著者らは、ツール選択からプロンプト、初期生成、プレビュー、会話的修正、公開までのライフサイクルを整理し、どの段階で均質化、認知的固定、過信、ブランド劣化、学習の孤立、デジタル・コモンズ汚染が起きるかを社会技術的に分析しています。解決策として出てくるのは、速度最優先の「摩擦なき生成」を少し止め、曖昧な文化記号を問い返したり、ブランド資料を読み込ませたり、出力の来歴を残したりする「生産的な摩擦」であり、AIを即時実行装置ではなく交渉相手へ変える設計です。

6023 字

読む →

AI研究 2026-03-17

協調は高ければよいのか：LLMが介入するマルチエージェント社会に「憲法」を入れる統治設計

LLM が集団へ説得的な方策を与えると、協調率そのものは大きく上げられますが、それが本当に望ましい協調なのかは別問題で、強い介入は自律性や認識の健全性、公平性を静かに壊しうることを、著者らはマルチエージェント実験で具体的に示します。そこで提案される Constitutional Multi-Agent Governance (CMAG) は、禁止テーマや禁止主張をまず hard constraint で落とし、その後に協調効果と操作リスクのバランスを soft optimization で調整する二段構えの統治機構です。実験では、統治なしの最適化は raw cooperation 0.873 と最も高い一方で Ethical Cooperation Score は 0.645 に落ち、CMAG は cooperation を 0.770 まで少し下げる代わりに ECS を 0.741 まで引き上げ、自律性 0.985・整合性 0.995 を保ちつつ、ハブと周辺の露出格差も 60%以上縮めました。

6114 字

読む →

AI研究 2026-03-17

命令チューニングのデータはどれを残すべきか：ニューロン活性で選ぶ NAIT の考え方

命令チューニングでは、データを増やせば必ず強くなるわけではなく、冗長なデータや狙いとずれたデータは性能を落とすことがあります。NAIT は、モデル内部のニューロン活性が目標能力にどれだけ沿うかを使って、少量でも効くデータを選ぶ枠組みです。仕組みは、目標能力の in-domain データを通したときの活性方向を抽出し、その方向に近い instruction データだけを高く評価して選ぶ、というものです。外部高性能モデルや不確実性推定より軽く、狙った能力に合わせてデータ選別できます。実験では、Alpaca-GPT4 全量での instruction tuning や既存の選別法より、Alpaca-GPT4 の 10% を NAIT で選んだほうが平均性能が上がり、論理推論やプログラミング由来の活性特徴が広い転移性を持つこと、さらに複数タスクで共通に効く安定したコア部分集合があることも示されました。

5933 字

読む →

AI研究 2026-03-17

ゼロ調整で多コーナ歩留まり解析を回す：学習済み事前分布で Tuning Barrier を越える

25以上の Process-Voltage-Temperature コーナをまたいで回路歩留まりを評価する Yield Multi-Corner Analysis は、各コーナで大量の SPICE シミュレーションが必要になり、計算量が組合せ的に膨らみます。提案手法は、個別回路ごとのハイパーパラメータ調整をやめ、TabPFN の学習済み事前分布をそのまま使う in-context learning と、自動特徴選択を組み合わせて、ゼロ調整で多コーナ解析を成立させます。 4×2 から 32×2 の OpenYield SRAM で、平均 MRE 0.11% から 1.10% の精度を保ちつつ、総検証コストを 10 倍超削減し、難しいコーナでも cross-corner transfer が効くことを示しました。

6770 字

読む →

AI研究 2026-03-17

人手確認を前提にした手書き数学答案のLLM採点：公平性と省力化を両立させる実運用設計

手書きの数学答案に素早く個別フィードバックを返したい一方で、在宅課題は生成AIで信頼性が落ちやすく、教室内の短い手書きテストをどう効率よく採点するかが新しい課題になっています。著者らは、答案のスキャン、匿名化、詳細な採点基準、GPT-5.1 による5回採点、整合性確認、人間の最終確認までを一続きにした人手介在型の採点ワークフローを設計し、実際の大学数学2科目で回しました。実験では採点時間が平均で約23.3%短縮され、人間同士の採点一致率と同等か場合によってはそれ以上の整合性が得られましたが、まれな外れ値は残るため、完全自動化ではなく人間が最後に責任を持つ設計が前提です。

6221 字

読む →

生成AI研究を、要点から追う。

最新の記事

OpenSWEは何を変えたのか：SWEエージェント訓練を支える4.5万件の実行環境と難度キュレーション

拡散型言語モデルの並列復号を依存関係つきで進める：自己注意から独立集合を選ぶ DAPD

ARL-Tangram：エージェント型強化学習の外部資源を「行動単位」でさばく資源管理基盤

SAW：4つの軽量条件で腹腔鏡手技動画を制御生成する外科ワールドモデルへの一歩

ESPIRE：VLMの身体化空間推論を「位置特定」と「実行」に分けて診断するベンチマーク

Webバイブコーディングはデザインを均質化するのか：摩擦なき生成が創造性を削る仕組みを問い直す

協調は高ければよいのか：LLMが介入するマルチエージェント社会に「憲法」を入れる統治設計

命令チューニングのデータはどれを残すべきか：ニューロン活性で選ぶ NAIT の考え方

ゼロ調整で多コーナ歩留まり解析を回す：学習済み事前分布で Tuning Barrier を越える

人手確認を前提にした手書き数学答案のLLM採点：公平性と省力化を両立させる実運用設計