継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

汎用視覚モデルだけで医用画像セグメンテーションは足りるのか:3データセット横断で見直す2次元MISの常識

医用画像セグメンテーションでは専用設計モデルが有利だと考えられがちですが、3種類の異なる2次元データセットで厳密比較すると、汎用視覚モデル群が多くの専用モデルを上回りました。 比較は11モデルを同一学習条件で揃え、精度だけでなく Grad-CAM による可視化も確認した点が重要で、単なる実装差や訓練差ではない傾向を示しています。 結論は「専用モデルは不要」ではなく、まず汎用視覚モデルを強い基準線として検証し、そのうえでデータ整備やOOD評価へ資源を回すほうが研究効率が高い、というものです。

5587 字
読む →

SSDの意味勾配をどう安定して読むか:PCA sweepで次元選択の恣意性を絞る

Supervised Semantic Differential(SSD)は、テキスト意味のずれを心理尺度などの連続変数に沿って読む混合的手法ですが、PCA の次元数 K をどう選ぶかに系統的な基準がなく、研究者の裁量が入りやすいという弱点を抱えていました。 著者らは、表現容量、意味勾配の解釈可能性、近傍の K に対する安定性を同時に見て K を選ぶ PCA sweep を提案し、AI に関する短文投稿とナルシシズム尺度のケーススタディで、その有効性を示しています。 事例では Admiration に関して K=15 の安定で解釈しやすい意味勾配が得られ、AI を協調的・前向きに語る側と、不信・嘲笑・敵対で語る側が対置されましたが、Rivalry では頑健な整列が出ず、方法上の慎重さも同時に確認されました。

5692 字
読む →

OpenSWEは何を変えたのか:SWEエージェント訓練を支える4.5万件の実行環境と難度キュレーション

ソフトウェアエージェントの学習で本当に足りていないのは、コード断片ではなく、テスト実行と修正の反復を伴う「動く環境」です。OpenSWEは12.8kリポジトリから45,320件の実行可能Docker環境を公開し、その生成インフラまで含めて透明化しました。 狙いは規模の誇示だけではありません。PRとIssueの不整合や、説明文を読めば答えがほぼ分かる trivial な課題を除き、「学習信号としてちょうどよい難しさ」の環境だけを残す difficulty-aware filtering が核心です。 その結果、OpenSWEで訓練した32B/72BモデルはSWE-bench Verifiedで62.4%/66.0%を達成し、同系統の既存データより強く、しかも数学推論で最大12点、科学ベンチで最大5点の外部改善まで示しました。

5889 字
読む →

拡散型言語モデルの並列復号を依存関係つきで進める:自己注意から独立集合を選ぶ DAPD

拡散型言語モデルは複数トークンを同時に埋め戻せるのが強みですが、各位置の確率だけを見て並列更新すると、互いに強く依存した語を同時に確定して全体が不整合になりやすいという弱点があります。 DAPD は、自己注意からマスク位置間の依存グラフを作り、強く結びついた位置を避けながら独立集合だけを選んで同時にマスク解除 する、追加学習不要の並列復号法です。 LLaDA と Dream で精度とステップ数の両立を改善し、ParallelBench では LLaDA の逐次生成に近い精度を保ちながら平均66.2 step まで短縮し、3.87倍の高速化を達成しました。

5930 字
読む →

ARL-Tangram:エージェント型強化学習の外部資源を「行動単位」でさばく資源管理基盤

エージェント型強化学習では、GPUだけでなくCPU、報酬モデルGPU、API枠、検索やコード実行環境など外部資源の使い方が学習効率を大きく左右しますが、従来は軌跡単位・タスク単位の静的な過剰確保が多く、無駄が大きい状態でした。 ARL-Tangramは、外部資源呼び出しを action-level、つまり個々の原子的な操作単位へ分解し、資源要求を統一表現したうえで、弾力的に再配分する資源管理システムです。 実タスク評価では、平均ACTを最大4.3倍改善し、学習ステップ時間を最大1.5倍短縮し、外部資源コストを最大71.2%削減しました。MiMo 系モデルの学習にも実際に投入されています。

5602 字
読む →

SAW:4つの軽量条件で腹腔鏡手技動画を制御生成する外科ワールドモデルへの一歩

外科AIでは、まれな手技の学習データ不足と、現実に近いシミュレーション不足が同時にボトルネックになっており、動画生成がその橋渡し役として期待されています。 SAWは、言語指示、最初の1フレーム、組織アフォーダンス、器具先端の2次元軌跡という4つの軽量条件だけで、腹腔鏡手技動画を制御生成する拡散モデルです。 12,044本の手技クリップで学習した結果、時間的一貫性で既存法を大きく上回り、希少手技の認識精度改善やシミュレータ由来軌跡からの映像生成にもつながることを示しました。

5597 字
読む →

ESPIRE:VLMの身体化空間推論を「位置特定」と「実行」に分けて診断するベンチマーク

ESPIRE は、Vision-Language Model の身体化空間推論を、静的なVQAではなく、物理シミュレーション上のロボット課題として評価する診断ベンチマークであり、位置特定と動作実行をどちらも生成問題として扱います。 148種類の空間推論タイプ、65の命令ファミリ、計2,220タスクという広い設計により、距離・向き・関係・参照枠のどこで崩れるかを細かく見られるようにしています。 実験では、VLMは概して「対象がどこにあるか」はそこそこ分かる一方、「そこにどう手を入れ、どの向きで扱うか」は大きく弱く、特に orientation reasoning と place タスクが深いボトルネックであることが示されました。

5895 字
読む →

Webバイブコーディングはデザインを均質化するのか:摩擦なき生成が創造性を削る仕組みを問い直す

Web制作の「バイブコーディング」は、コードを書かずに雰囲気や目的を自然言語で伝えるだけでサイトを作れる一方、LLMが学習済みの支配的な美意識を既定値として流し込みやすく、表現の多様性を狭める危険があります。 著者らは、ツール選択からプロンプト、初期生成、プレビュー、会話的修正、公開までのライフサイクルを整理し、どの段階で均質化、認知的固定、過信、ブランド劣化、学習の孤立、デジタル・コモンズ汚染が起きるかを社会技術的に分析しています。 解決策として出てくるのは、速度最優先の「摩擦なき生成」を少し止め、曖昧な文化記号を問い返したり、ブランド資料を読み込ませたり、出力の来歴を残したりする「生産的な摩擦」であり、AIを即時実行装置ではなく交渉相手へ変える設計です。

6023 字
読む →

協調は高ければよいのか:LLMが介入するマルチエージェント社会に「憲法」を入れる統治設計

LLM が集団へ説得的な方策を与えると、協調率そのものは大きく上げられますが、それが本当に望ましい協調なのかは別問題で、強い介入は自律性や認識の健全性、公平性を静かに壊しうることを、著者らはマルチエージェント実験で具体的に示します。 そこで提案される Constitutional Multi-Agent Governance (CMAG) は、禁止テーマや禁止主張をまず hard constraint で落とし、その後に協調効果と操作リスクのバランスを soft optimization で調整する二段構えの統治機構です。 実験では、統治なしの最適化は raw cooperation 0.873 と最も高い一方で Ethical Cooperation Score は 0.645 に落ち、CMAG は cooperation を 0.770 まで少し下げる代わりに ECS を 0.741 まで引き上げ、自律性 0.985・整合性 0.995 を保ちつつ、ハブと周辺の露出格差も 60%以上縮めました。

6114 字
読む →

命令チューニングのデータはどれを残すべきか:ニューロン活性で選ぶ NAIT の考え方

命令チューニングでは、データを増やせば必ず強くなるわけではなく、冗長なデータや狙いとずれたデータは性能を落とすことがあります。NAIT は、モデル内部のニューロン活性が目標能力にどれだけ沿うかを使って、少量でも効くデータを選ぶ枠組みです。 仕組みは、目標能力の in-domain データを通したときの活性方向を抽出し、その方向に近い instruction データだけを高く評価して選ぶ、というものです。外部高性能モデルや不確実性推定より軽く、狙った能力に合わせてデータ選別できます。 実験では、Alpaca-GPT4 全量での instruction tuning や既存の選別法より、Alpaca-GPT4 の 10% を NAIT で選んだほうが平均性能が上がり、論理推論やプログラミング由来の活性特徴が広い転移性を持つこと、さらに複数タスクで共通に効く安定したコア部分集合があることも示されました。

5933 字
読む →