継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

MetaGen:マルチエージェントLLM推論のための自己進化する役割とトポロジー

MetaGenは、大規模言語モデル(LLM)を用いたマルチエージェントシステムにおいて、推論実行時にエージェントの役割(ロール)と協力構造(トポロジー)を動的に生成・調整する、追加学習不要なフレームワークである。

5929 字
読む →

ニューラル・ニューラルスケーリング則

従来のべき乗則やロジスティック関数に基づくスケーリング則は、平均検証損失という単一の指標に依存しており、下流タスクで見られる「逆スケーリング」や「性能の停滞」といった多様な挙動を正確に予測できないという根本的な課題を抱えていました。

7280 字
読む →

内省的翻訳:構造化された自己内省による低リソース機械翻訳の改善

isiZuluやisiXhosaといった低リソース言語の機械翻訳において、限定的な学習データに起因する誤訳や情報の欠落、意味の歪みを解決するため、モデルが自らの出力を批判的に評価し修正する「内省的翻訳(Reflective Translation)」フレームワークが提案されました。 この手法は、GPT-3.

7209 字
読む →

ベンチマークが漏洩するとき:LLMのための推論時における汚染除去

大規模言語モデルの評価において、テストデータが訓練データに混入する「データ汚染」が性能を不当に高く見せる問題に対し、推論時に埋め込み空間へ微小な摂動を加えることで記憶によるショートカットを抑制する手法「DeconIEP」が提案されました。

6205 字
読む →

自動ポストエディットにおいて、LLMは本当により長いコンテキストから恩恵を受けているのか?

商用大型言語モデル(LLM)は、単純なプロンプト操作のみで人間と同等の自動ポストエディット(APE)品質を達成可能ですが、ドキュメント全体のコンテキストを追加しても翻訳品質に統計的に有意な向上は見られず、長文コンテキストの活用の難しさが浮き彫りになりました。

6582 字
読む →

LLM生成応答への広告挿入

大規模言語モデル(LLM)の持続可能な収益化に向け、広告挿入を応答生成から分離し、広告主が特定のクエリではなく「ジャンル」という抽象的なカテゴリに対して事前に入札を行う新しい広告枠組みを提案する。

5666 字
読む →

KG-CRAFT:自動ファクトチェック強化のためのLLMを用いた知識グラフベースの対照的推論

KG-CRAFTは、大規模言語モデル(LLM)と知識グラフ(KG)を融合させ、主張と証拠の間の対照的な関係を深掘りすることで自動ファクトチェックの精度を劇的に向上させる新しいフレームワークです。

6107 字
読む →

モデルが審査員より賢くなるとベンチマークは飽和する

大規模言語モデル(LLM)の数学能力を測定する既存ベンチマーク「Omni-MATH」を精査し、データセットの不備修正と詳細なタグ付けを行った改訂版「Omni-MATH-2」を構築した。 検証の結果、評価役のモデル(審査員)が被評価モデルの実力向上に追いつけず、正解の同等性を正しく判定できないことで、モデル間の真の性能差が隠蔽される「審査員による飽和」現象が確認された。 特に難易度が高い問題ほど審査員間の不一致が増大し、従来の審査員は不一致事例の96.4%で誤判定を下していたことから、今後の評価には被評価モデルを上回る高度な審査員の存在が不可欠である。

5717 字
読む →

自動化された安全性ベンチマーキング:LVLMのためのマルチエージェント・パイプライン

大規模視覚言語モデル(LVLM)の安全性評価において、従来の手動によるベンチマーク構築は膨大なコストと時間がかかり、急速なモデルの進化や新たなリスクに対応できないという課題があった。 本研究は、データの前処理、生成、拡張、選択を担う4つの自律的なエージェントを連携させ、人間による介入なしに高品質な安全性評価用データセットを自動で構築する「VLSafetyBencher」を提案した。 実験の結果、わずか1週間以内でベンチマークの構築が可能となり、最も安全なモデルとそうでないモデルの間に70%の安全性スコアの差を出すなど、既存の手動ベンチマークを15.67%上回る高い識別能力を実証した。

5727 字
読む →

ALRM: ロボット操作のためのエージェント的LLM

ALRMは、大規模言語モデル(LLM)をロボット操作の計画と実行に統合する新しいエージェント型フレームワークであり、ReAct形式の推論ループを通じて、タスクの分解、実行結果の反映、および計画の修正を動的に行う仕組みを提供します。

5827 字
読む →