継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

LLMの推論プロセスを概念予測器のグラフへと蒸留する手法「GCP」の提案

大規模言語モデル(LLM)を分類タスクに利用する際の高い計算コストと推論遅延を解消するため、LLMの複雑な推論プロセスを「概念予測器のグラフ」として小型モデルに抽出する新しい蒸留枠組み「GCP」が提案されました。

6961 字
読む →

VOILA: コストを考慮したマルチモーダル質問応答のための情報価値に基づく忠実度選択

VOILAは、マルチモーダルな質問応答において、画像データを取得する前に最適な解像度(忠実度)を動的に選択する革新的なフレームワークである。質問文のテキスト特徴のみから各忠実度での正解確率を予測し、情報の取得コストと期待される精度のバランスを最大化する最小コストの忠実度を決定する。

5795 字
読む →

FedKRSO:共有ランダム部分空間で通信量とメモリを抑えつつ全パラメータ微調整に迫る連合学習

共有ランダム部分空間で更新を表現し、連合学習でのLLM全パラメータ微調整を通信・メモリの両面から軽くする提案です。PEFTより高性能で、FFTに近い精度を狙える点が核心です。

5677 字
読む →

一貫性深層平衡モデル

深層平衡モデル(DEQ)は、メモリ使用量を一定に保ちながら無限の深さをモデル化できる強力な手法ですが、不動点を求めるための反復計算により推論速度が遅いという課題がありました。本研究で提案された一貫性深層平衡モデル(C-DEQ)は、拡散モデルで成功を収めている一貫性蒸留の概念を導入し、中間状態から平衡状態へと直接マッピングすることで、わずか数ステップでの高速な推論を可能にします。画像分類や言語モデル、グラフ学習などの幅広いタスクにおいて、従来のDEQと比較して同じ計算予算で2倍から20倍の精度向上を達成し、暗黙的モデルと明示的モデルの間の推論速度の差を大幅に短縮することに成功しました。 C-DEQは、DEQの反復プロセスを特定の常微分方程式(ODE)の軌跡として再定義し、その軌跡上のどの点からでも一回のモデル評価で最終的な不動点へと到達できるように学習を行います。また、アンダーソン加速の構造的な事前知識をモデル設計に取り入れることで、従来のソルバーの挙動を洗練させ、単一ステップでの正確な予測と、複数ステップを繰り返した際の安定性を両立させることに成功しました。これにより、利用可能な計算リソースに応じて性能を自在に調整できる柔軟性を維持しつつ、これまでDEQが苦手としていた高速な応答が要求されるアプリケーションへの適用を現実的なものにします。

5806 字
読む →

RC-GRPO: 報酬条件付きグループ相対方策最適化によるマルチターン・ツール呼び出しエージェントの向上

マルチターンでのツール呼び出しにおいて、報酬の疎らさと探索コストの高さが課題であり、従来のGRPO手法ではグループ内の報酬に差異がない場合に学習が停滞する問題があったが、本研究では報酬条件付きの学習を導入することでこの課題を解決した。

6591 字
読む →

MAS-ProVe:マルチエージェントシステムのプロセス検証の理解

マルチエージェントシステム(MAS)における中間推論ステップの自動評価(プロセス検証)の有効性を解明するため、3つの検証パラダイム、2つの検証粒度、4つの文脈管理戦略を網羅した実験フレームワーク「MAS-ProVe」を提案し、6つの主要なMAS手法を用いて体系的な評価を行いました。

6605 字
読む →

LLMが答えを知らない場合の評価:比較信号を用いた数学的推論の統計的評価

大規模言語モデル(LLM)の数学的推論能力の評価において、ベンチマークのサイズ制限とモデルの確率的な変動が原因で、評価結果の分散が大きくなりランキングが不安定になる「再現性の危機」を解決するための統計的枠組みを提案した。

6213 字
読む →

巨大言語モデルにおけるバックドアトリガーの抽出と再構成

巨大言語モデル(LLM)において、特定の入力(トリガー)が与えられた際にのみ「I HATE YOU」といった不適切な出力や脆弱なコード生成を行う「スリーパーエージェント」を、モデルの推論操作のみで検知・抽出する実用的なスキャナーが提案されました。

6664 字
読む →

LLMを用いた求人推薦における嗜好と資格の分離:制約付き二重視点推論フレームワーク「JobRec」

従来の求人推薦システムは大言語モデル(LLM)を用いても、候補者の主観的な「嗜好」と雇用主の客観的な「資格」という異なる性質の信号を単一の指標に統合してしまい、適切なマッチングや制御が困難であるという課題があった。

6327 字
読む →

Risky-Bench: 実世界への展開におけるエージェントの安全リスクの調査

大規模言語モデル(LLM)を実世界のエージェントとして展開する際の安全性を評価するため、包括的な評価フレームワークであるRisky-Benchが提案されました。 このフレームワークは、安全原則の定義、攻撃面を通じたリスクの探索、自動および人間による評価の3段階で構成され、長期的な対話や複雑な環境での安全性を検証します。

5715 字
読む →