継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

ベンチマークが漏洩するとき:LLMのための推論時における汚染除去

大規模言語モデルの評価において、テストデータが訓練データに混入する「データ汚染」が性能を不当に高く見せる問題に対し、推論時に埋め込み空間へ微小な摂動を加えることで記憶によるショートカットを抑制する手法「DeconIEP」が提案されました。

6205 字
読む →

選択的ステアリング:識別的な層選択を通じたノルム保存制御

大規模言語モデル(LLM)の安全性を高めるための「アクティベーション・ステアリング」において、従来の回転手法がモデルの内部状態(ノルム)を歪ませ、特に7B未満の小規模モデルで生成崩壊を引き起こす問題を特定しました。

5672 字
読む →

LLM生成応答への広告挿入

大規模言語モデル(LLM)の持続可能な収益化に向け、広告挿入を応答生成から分離し、広告主が特定のクエリではなく「ジャンル」という抽象的なカテゴリに対して事前に入札を行う新しい広告枠組みを提案する。

5666 字
読む →

KG-CRAFT:自動ファクトチェック強化のためのLLMを用いた知識グラフベースの対照的推論

KG-CRAFTは、大規模言語モデル(LLM)と知識グラフ(KG)を融合させ、主張と証拠の間の対照的な関係を深掘りすることで自動ファクトチェックの精度を劇的に向上させる新しいフレームワークです。

6107 字
読む →

LLM-VA:ベクトルアライメントによる脱獄と過剰拒否のトレードオフの解消

安全性が調整された大規模言語モデル(LLM)において、有害な入力に回答してしまう「脱獄」と、無害な質問を拒否する「過剰拒否」がトレードオフの関係にあるのは、モデル内部で回答の意思決定と安全性評価が独立したプロセスとして処理されていることが原因です。

6136 字
読む →

モデルが審査員より賢くなるとベンチマークは飽和する

大規模言語モデル(LLM)の数学能力を測定する既存ベンチマーク「Omni-MATH」を精査し、データセットの不備修正と詳細なタグ付けを行った改訂版「Omni-MATH-2」を構築した。 検証の結果、評価役のモデル(審査員)が被評価モデルの実力向上に追いつけず、正解の同等性を正しく判定できないことで、モデル間の真の性能差が隠蔽される「審査員による飽和」現象が確認された。 特に難易度が高い問題ほど審査員間の不一致が増大し、従来の審査員は不一致事例の96.4%で誤判定を下していたことから、今後の評価には被評価モデルを上回る高度な審査員の存在が不可欠である。

5717 字
読む →

AROMMA:単一分子と混合物のための嗅覚埋め込みの統合

嗅覚研究における長年の課題であった、単一分子データと混合物データの断片化を解消するため、両者を同一のベクトル空間で扱う統一的フレームワーク「AROMMA」を提案しました。 大規模化学基盤モデルSPMMとアテンション機構を用いた独自のアグリゲーターにより、分子間の複雑な非線形相互作用を捉えつつ、知識蒸留とクラス分布を考慮した疑似ラベル生成によってデータの不均一性を克服しています。 実験では、混合物データで19.1%、単一分子で3.2%の精度向上を達成し、混合物の学習から得られた知見が単一分子の理解を深めるという双方向の知識転移が可能であることを世界で初めて実証しました。

6019 字
読む →

A*探索のための効率的なLLMベースのヒューリスティック設計に向けたアルゴリズム的プロンプト拡張

A探索の性能を決定づけるヒューリスティック関数を、大規模言語モデル(LLM)を用いて自動設計する新手法「A-CEoH」が提案されました。従来の自動設計手法は貪欲法などの単純なアルゴリズムに限定されていましたが、本研究ではプロンプトにAアルゴリズム自体のソースコードを組み込む「アルゴリズム的文脈拡張」を導入することで、LLMが探索の動態を深く理解し、より高精度な評価関数を生成することを可能にしました。倉庫物流におけるユニットロード再配置問題(UPMP)や、20×20という巨大なサイズのスライディングパズルを用いた検証において、A-CEoHは専門家が手作業で設計した既存のヒューリスティックを凌駕する成果を達成しました。特に、32Bクラスの比較的小型なローカルモデルであっても、適切なアルゴリズム的文脈を提供することで、巨大な汎用モデルを超える性能を発揮できることが示され、計算リソースを抑えつつ高度な最適化を実現する道が開かれました。

6714 字
読む →

AACR-Bench: 包括的なリポジトリレベルのコンテキストを用いた自動コードレビューの評価

従来の自動コードレビュー評価は、不完全な正解データと単一言語への依存という課題を抱えていたが、本研究では10種類の主要プログラミング言語に対応し、リポジトリ全体の文脈を活用できる新しいベンチマーク「AACR-Bench」を開発した。

6794 字
読む →

大規模言語モデルにおけるヘッド間相互作用のための明示的なマルチヘッドアテンション

従来のTransformerが抱えていたアテンションヘッド間の独立性という制約を打破するため、ヘッド間の明示的な相互作用を可能にする「Multi-head Explicit Attention(MEA)」を提案し、学習の安定性と表現力を大幅に向上させた。

5927 字
読む →