継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

トークンを超えて:内部状態のプロービングによる効率的な推論のための意味を考慮した投機的デコーディング

大規模言語モデルの推論を高速化する投機的デコーディングにおいて、従来のトークン単位の厳密な一致ではなく、文章全体の意味的な等価性を検証する新しいフレームワーク「SemanticSpec」が提案されました。

5655 字
読む →

GreenServ:マルチモデルLLM推論のためのエネルギー効率に優れたコンテキスト認識型動的ルーティング

GreenServは、大規模言語モデル(LLM)の推論における膨大なエネルギー消費を削減するために開発された、動的でコンテキストを認識するルーティングフレームワークである。各クエリからタスクの種類や意味的クラスタ、テキストの複雑性などの軽量な特徴を抽出し、文脈付き多腕バンディット(MAB)アルゴリズムを用いて、精度とエネルギー効率のバランスが最も優れたモデルを複数の候補から自動的に選択する。 このシステムは、従来の静的なモデル選択とは異なり、実際の運用を通じてモデルの性能を学習し続けるオンライン学習機能を備えている。これにより、事前の膨大なキャリブレーションを必要とせず、新しいモデルが追加された際にも即座に最適なルーティング戦略に組み込むことが可能となっている。 実験の結果、ランダムなルーティングと比較して精度を22%向上させつつ、累積エネルギー消費を31%削減することに成功した。また、推論時のオーバーヘッドは極めて小さく、実用的な遅延制約を満たしながら、持続可能なAI運用のための高度なトレードオフ制御を実現している。

5646 字
読む →