継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

トランスフォーマーにおける記憶の想起:符号化特定性原理からの知見

トランスフォーマー型大規模言語モデルのアテンション層が、人間の記憶システムと同様の役割を担っていることを明らかにしました。具体的には、クエリが検索の文脈を符号化し、キーが記憶のインデックスとして機能し、バリューが実際の内容を保持するという明確な役割分担が存在します。

5656 字
読む →

1単語で検索順位を操る:ニューラルテキストランキングに対する最小限の敵対的攻撃

ニューラルランキングモデル(NRM)は、クエリに関連する特定の1単語を挿入または置換するだけで、検索順位を大幅に操作される脆弱性があることが明らかになりました。 本研究では「クエリセンター」という概念を導入し、ヒューリスティックな手法や勾配を用いた手法によって、わずか1トークンの変更で最大91%の攻撃成功率を達成しています。 特に検索順位の中間に位置する文書が最も攻撃に対して脆弱である「ゴルディロックス・ゾーン」の存在が確認され、既存のランキングモデルの堅牢性に重大な課題を投げかけています。

6709 字
読む →

弱い教師あり学習下での真実性:ピア予測を用いたLLMの評価と訓練

大規模言語モデル(LLM)が監視者の知識不足を悪用して迎合的・欺瞞的な回答を行う問題に対し、正解ラベルを一切使用せず、回答間の「相互予測可能性」に基づいて誠実さを評価するゲーム理論的枠組み「ピア予測」を導入しました。

5762 字
読む →

物理法則で視覚的な質量推定を導く:RGB画像1枚からの挑戦

物体の質量は幾何学的な体積と材料に依存する密度の積で決定されるが、これらはRGB画像の外観から直接観察することができないため、単一画像からの推定は極めて困難な不良設定問題となっている。本研究では、単一のRGB画像から単眼深度推定を用いて3次元幾何学(体積要因)を復元し、視覚言語モデル(VLM)を用いて材料のセマンティクス(密度要因)を抽出して統合する、物理的に構造化された新しいフレームワークを提案した。image2massおよびABO-500という2つの主要なデータセットを用いた検証において、提案手法は従来のRGB画像のみを用いる手法や、単純に深度情報を付加した既存の最先端手法を一貫して上回る推定精度を達成し、物理的な解釈性も向上させた。

5952 字
読む →

内発的リプロンプティング:統合マルチモーダルモデルのための自己進化型認知アライメント

統合マルチモーダルモデル(UMM)において、高度な理解能力が生成能力に反映されない「認知の溝」を解消するため、モデル内部で自己完結的にプロンプトを再構成する「内発的リプロンプティング」が提案されました。

6907 字
読む →

SuperInfer:スーパーチップ上でのLLM推論を最適化するSLO認識型スケジューリングとメモリ管理

SuperInferは、NVIDIA GH200のようなスーパーチップ環境において、大規模言語モデル(LLM)推論の遅延サービスレベル目標(SLO)を達成するために設計された、新しいスケジューリングおよびメモリ管理システムである。

6385 字
読む →

SAPO: 自己適応的なプロセス最適化が小規模推論モデルを強力にする

SAPO(Self-Adaptive Process Optimization)は、小規模言語モデル(SLM)の推論能力を効率的に向上させるための、自己適応型プロセス最適化フレームワークである。

5699 字
読む →

Less is More: 大規模言語モデルによる推薦エージェントのベンチマーク

大規模言語モデル(LLM)を用いた推薦システムにおいて、ユーザーの購入履歴を5件から50件に増やしても推薦の質は向上せず、品質スコアは0.17から0.23の範囲で停滞することが判明しました。GPT-4o-mini、DeepSeek-V3、Qwen2.5-72B、Gemini 2.

6495 字
読む →

ECG-Agent: デバイス上で動作する、心電図(ECG)対話のためのツール呼び出しエージェント

従来の心電図解析AIが抱えていた「複数回の対話が困難」「デバイス上での動作にはモデルが巨大すぎる」「波形の微細な測定精度が低い」という3つの主要な課題を解決するため、外部ツールを自在に使いこなす軽量なAIエージェント「ECG-Agent」を開発しました。

6460 字
読む →

スピードアップの先へ:KVキャッシュをサンプリングと推論に活用する

大規模言語モデルの推論を高速化するために不可欠なKVキャッシュを、単なる加速手段ではなく、下流タスクのための軽量な表現(埋め込み)として再利用する手法が提案されました。 この手法は、追加の計算コストやメモリ消費をほとんど伴わずに、推論パスの選択を行うChain-of-Embeddingや、問題の難易度に応じて思考の深さを切り替えるFast/Slow Thinking Switchに適用可能です。 実験では、Llama-3.1やQwen2などのモデルにおいて、フル状態の隠れ層を用いる手法に匹敵する性能を示しつつ、特定のタスクでは生成トークン数を最大5.7倍削減することに成功しました。

6625 字
読む →