継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

GhostUI:モバイルUIにおける隠されたインタラクションを明らかにする

現代のモバイルアプリには、スワイプや長押しといった視覚的な手がかりのない「隠れたインタラクション」が数多く存在し、これが視覚情報に依存するAIエージェントの操作を困難にしている。本研究では、81種類の人気アプリから1,970件の隠れた操作事例を収集した世界初のデータセット「GhostUI」を構築し、操作前後の画像や構造データ、自然言語によるタスク説明を体系化した。検証の結果、GhostUIで学習した視覚言語モデルは、隠れた操作の予測精度や操作後の画面状態の推論能力が大幅に向上し、モバイルタスク自動化における視覚的手がかりの欠如という課題を克服する重要な基盤となることが示された。

6576 字
読む →

DiaDem:マルチモーダル大規模言語モデルのための視聴覚動画キャプション生成における対話記述の高度化

視聴覚動画キャプション生成において、従来のモデルは「誰が何を話したか」という対話の正確な記述、特に複数人による複雑なシーンでの話者特定や発話の書き起こしに大きな課題を抱えていた。 本研究では、対話記述の精度を大幅に向上させた新モデル「DiaDem」と、話者特定(REF)と発話書き起こし(ASR)の正確性を厳密に評価するための初となる専用ベンチマーク「DiaDemBench」を提案した。 高品質な合成データを用いた教師あり微調整(SFT)と、難易度別に分割された二段階のGRPO戦略を組み合わせることで、DiaDemは対話記述の正確性においてGeminiシリーズを上回る性能を達成し、一般的なキャプション生成能力も高い水準で維持している。

5751 字
読む →

推論に重要なニューロンの特定と転移:アクティベーションステアリングによるLLM推論の信頼性向上

大規模言語モデル(LLM)の内部には、推論の正誤と強く相関する「推論重要ニューロン(RCN)」が少数存在することを発見し、これを利用した軽量な介入フレームワーク「AdaRAS」を提案しました。 この手法は、正解と不正解の推論軌跡における活性化パターンの差からRCNを特定し、推論の失敗が予測される場合にのみ適応的にニューロンの活性化を調整することで、追加学習なしで推論の信頼性を向上させます。 数学やコード生成の10個のベンチマークで一貫した性能向上を確認し、特に難易度の高いAIME-24およびAIME-25では13%以上の精度向上を達成するとともに、異なるデータセットやモデル間での高い転移性も示しました。

5955 字
読む →

リドル・クエスト:言葉の謎

本研究は、類推に基づくなぞなぞを自動生成し、大規模言語モデルの推論能力や曖昧さの処理能力を多角的に評価するための新しいパイプライン「リドル・クエスト」を提案している。 システムは対象概念を構造化データとして捉え、属性分類を経て五つの多様なスタイルで問題を生成するが、検証の結果、最新の言語モデルであっても比喩的表現における正解の網羅的な特定には大きな課題があることが判明した。 なぞなぞは、人工知能の抽象化能力や多段階の推論を測定するための軽量かつ有効なマイクロベンチマークとして機能し、単なる正誤判定を超えてモデルが持つ知識の広がりと解釈の深さを定量的に評価する重要なツールとなる。

6771 字
読む →

DART:高速なLLM推論のための拡散モデルに着想を得た投機的デコーディング

DARTは、拡散モデルの並列生成能力を投機的デコーディングに導入することで、従来のドラフトモデルが抱えていた自己回帰的な逐次処理による遅延を根本から解消する新しい推論加速フレームワークです。 ターゲットモデルの中間状態を再利用する極めて軽量な設計と、単一のフォワードパスで複数の未来トークンを同時に予測する仕組みにより、ドラフト作成時間を大幅に短縮しつつ、ターゲットモデルとの高い整合性を維持することに成功しました。 実験では、標準的な推論に対して最大3.44倍の高速化を達成し、既存の最先端手法であるEAGLE3を平均で30%上回る圧倒的なパフォーマンスを実証しており、大規模言語モデルの推論効率を実用的なレベルで新たな次元へと引き上げます。

6282 字
読む →

LLM推論のためのグループ分布ロバスト最適化駆動型強化学習

大規模言語モデル(LLM)の推論学習において、従来の強化学習手法が抱えていた「全問題を一律に扱う非効率性」を解消するため、問題の難易度に応じて学習の重みと計算資源を動的に配分する「マルチ敵対的GDROフレームワーク」が提案されました。

6372 字
読む →

MetaGen:マルチエージェントLLM推論のための自己進化する役割とトポロジー

MetaGenは、大規模言語モデル(LLM)を用いたマルチエージェントシステムにおいて、推論実行時にエージェントの役割(ロール)と協力構造(トポロジー)を動的に生成・調整する、追加学習不要なフレームワークである。

5929 字
読む →

持続可能性と性能のバランス:エージェント型人工知能システムにおける小規模LLMの役割

大規模言語モデル(LLM)をエージェント型AIシステムに統合する際、推論時の膨大なエネルギー消費が持続可能性の大きな課題となっていますが、本研究では小規模なオープンウェイトモデルを活用することで、応答性や出力品質を損なうことなく消費電力を削減できる可能性を明らかにしました。

6054 字
読む →

エンドユーザーのクエリをエンタープライズデータベースへルーティングする

大規模な企業環境において、ユーザーの自然言語による質問を分散した多数のデータベースの中から最も適切なものへ自動的に振り分ける「クエリルーティング」の精度を向上させるため、既存のベンチマークを大幅に拡張した「Spider-Route」と「Bird-Route」を構築し、評価の妥当性を高めました。

6228 字
読む →

ニューラル・ニューラルスケーリング則

従来のべき乗則やロジスティック関数に基づくスケーリング則は、平均検証損失という単一の指標に依存しており、下流タスクで見られる「逆スケーリング」や「性能の停滞」といった多様な挙動を正確に予測できないという根本的な課題を抱えていました。

7280 字
読む →