継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

エージェント型プログラム修正におけるバグ再現テストの動的共生成

開発者の信頼を高めるため、AIによるバグ修正と同時にそのバグを再現するテスト(BRT)を生成する「共生成」手法を提案し、Googleの120件の実際のバグを用いてその有効性を検証した。 テスト駆動型(TDD)、テスト後置型(TLD)、自由形式(Freeform)の3つの戦略を比較した結果、自由形式が最も高い成功率を記録し、修正のみやテストのみを生成する専用エージェントと同等以上の成果を上げた。 テストの有無を考慮した新しいパッチ選択手法を導入することで、修正とテストの両方が含まれる高品質なパッチを精度よく特定できることを示し、大規模なソフトウェア開発におけるAIエージェントの有用性を実証した。

6210 字
読む →

HalluJudge:コードレビュー自動化における文脈不整合のための参照不要な幻覚検出

大規模言語モデル(LLM)が生成するコードレビューにおいて、実際のコード変更に基づかない「幻覚」を検出するため、正解データを必要としない評価フレームワーク「HalluJudge」が開発されました。

5877 字
読む →

さらなる賭け:協力ジレンマにおける利得と言語がいかにLLMエージェントの戦略を形成するか

本研究は、大規模言語モデル(LLM)エージェントが繰り返される囚人のジレンマにおいて、利得の絶対的な大きさと提示される言語が戦略的行動にどのような影響を与えるかを、FAIRGAMEフレームワークを用いて詳細に分析した。

6424 字
読む →

LEMON:MLLMは教育ビデオにおける時間的なマルチモーダル理解をどれほどうまく行えるか?

教育ビデオにおける時間的なマルチモーダル理解を精密に評価するため、数学や人工知能などのSTEM分野の講義を対象とした新しいベンチマーク「LEMON」が提案されました。このデータセットは、5つの学問分野と29のコースから収集された2,277のビデオセグメントと、4,181の高品質な問題ペアで構成されており、視覚、音声、テキストの3つのモダリティが密接に連携した高度な推論を要求します。実験の結果、GPT-5やQwen3-Omniといった最新のマルチモーダル大規模言語モデルであっても、時間的な推論や教育的な意図の予測において大きな課題があることが明らかになり、実世界での複雑なコンテンツ理解能力には依然として大きな乖離があることが示されました。

6199 字
読む →

ニューラル物理ソルバのための分布外汎化

NOVAは、物理法則に基づいた帰納バイアスを探索することで、学習データの範囲を超えた未知の物理シナリオ(分布外)に対しても高速かつ高精度に予測を行う、新しいニューラル物理ソルバの設計フレームワークである。

6114 字
読む →

Axe:機械学習コンパイラのためのシンプルで統一されたレイアウト抽象化

Axeは、論理的なテンソル座標をデバイス、メモリ、スレッドなどのハードウェア軸にマッピングする、ハードウェアを意識した新しい抽象化手法である。 この手法は、デバイス間のデータ分散(シャーディング、複製)とデバイス内のメモリレイアウト(タイリング、オフセット)を単一の形式で統一し、一貫した記述を可能にする。

5967 字
読む →

FloydNet:大域的な関係推論のための学習パラダイム

従来のグラフニューラルネットワーク(GNN)が抱えていた局所的なメッセージパッシングによる情報のボトルネックや表現力の限界を打破するため、動的計画法の原理を取り入れた新しいアーキテクチャ「FloydNet」が提案されました。

6115 字
読む →

RobustExplain:推薦のためのLLMベース説明エージェントの堅牢性評価

大規模言語モデル(LLM)を推薦理由の説明に活用する際、誤クリックやデータの欠損といった現実的なノイズが説明の整合性に与える影響を評価する初のフレームワーク「RobustExplain」が開発されました。 5種類の行動ノイズと4つの評価指標を用いて実験した結果、現在のLLMの堅牢性は平均0.

5666 字
読む →

強化学習を通じた関数呼び出しモデルの弱点探索:敵対的データ拡張によるアプローチ

大規模言語モデル(LLM)の関数呼び出し能力を向上させるため、強化学習を用いてモデルの弱点を能動的に探索し、敵対的なクエリを生成する新しいデータ拡張フレームワークを提案しました。 この手法は、クエリを生成する「クエリモデル」と、それに応答する「関数呼び出しモデル」を零和ゲームの枠組みで交互に反復学習させることで、従来の固定的なデータセットでは到達できなかった複雑な失敗パターンを体系的に特定します。 検証の結果、提案手法はモデルの堅牢性と汎用性を大幅に向上させ、外部ツールやAPIとの対話において、より正確で信頼性の高い構造化データの出力を可能にすることが確認されました。

5939 字
読む →

CLIPガイドによる教師なし意味論的露出補正

不適切な露出による詳細の消失や色被りを解決するため、Fast Segment Anything Modelから得られる物体レベルの意味情報を活用し、領域ごとの精密な補正を行う新しい教師なし学習フレームワークが提案されました。

5877 字
読む →