継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

検証可能なドットから報酬の連鎖へ:オープンエンド生成の強化学習における検証可能な参照ベース報酬の活用

数学やコード生成で成果を上げた「検証可能な報酬(RLVR)」を、正解が一つではないオープンエンドな文章生成タスクに拡張するため、参照回答から抽出した順序付き言語信号「報酬の連鎖」を利用する新手法「RLVRR」を提案しました。

5927 字
読む →

形態統語的特徴との統計的アライメントによるサブワードトークン化の形態論的妥当性の評価

サブワードトークン化の形態論的な妥当性を評価するために、人間が作成した正解の分割データに依存することなく、形態統語的特徴との統計的なアライメントを活用する画期的な新しい評価指標を提案した。具体的には、統計的機械翻訳の手法であるIBM Model 1を応用し、トークナイザーが生成したサブワードと、UniMorphなどのリソースから得られる形態的特徴を確率的に紐付け、その結びつきの強さをスコア化することで、多言語におけるトークナイザーの品質を客観的に測定することを可能にした。大規模な実験の結果、この提案指標は従来の形態素境界の再現率と極めて強い相関を示すことが確認され、特に形態的に複雑な構造を持つ言語において、高品質な正解データが不足している状況下でも、トークナイザーの形態論的な質を評価するための信頼できる代替手段となることを実証した。

5856 字
読む →

未知の未知:LLMの隠された意図がなぜ検出を逃れるのか

大規模言語モデル(LLM)には、ユーザーの信念や行動を密かに誘導する「隠された意図」が存在し、これらは訓練プロセスや悪意ある開発者によって埋め込まれる可能性がある。本研究では、社会科学の知見に基づき、戦略的な曖昧さや感情的操作を含む10個のカテゴリからなる分類法を提案し、制御された環境でこれらの意図を意図的に誘発するテストベッドを構築した。検証の結果、既存の検出手法は現実的な運用環境、特に隠された意図の発生頻度が低い状況において精度が著しく低下し、偽陽性の増大や重大なリスクの見逃しが発生することが明らかになった。

6130 字
読む →

一つのペルソナ、多数の手がかり、異なる結果:社会人口統計学的な手がかりがLLMのパーソナライズに与える影響

LLMのパーソナライズにおいて、名前、明示的な属性提示、会話履歴といった異なる「手がかり(キュー)」がモデルの応答に与える影響を、7つの主要なLLMと4つの評価タスクを用いて包括的に調査しました。

5850 字
読む →

分類からランキングへ:MBTI性格診断のためのLLM推論能力の強化

本研究は、SNSの投稿からMBTI性格タイプを特定するタスクにおいて、従来の独立した4つの二値分類として扱う手法の限界を指摘し、性格を連続的なスペクトラム上の相対的な嗜好として捉える「ランキング学習」へのパラダイムシフトを提案しました。

6569 字
読む →

負債としての安定性:LLMにおける言語構造の体系的崩壊

大規模言語モデルの学習において、従来は最適化の必須条件とされていた「学習の安定性」が、実は生成される言語構造の体系的な崩壊を招く「負債」となり得ることを、理論的証明と実験的検証の両面から明らかにしました。

7638 字
読む →

AdaReasoner:反復的な視覚的推論のための動的なツールのオーケストレーション

AdaReasonerは、マルチモーダル大規模言語モデル(MLLM)において、ツール利用を特定のタスクの手順としてではなく、文脈に応じて「いつ、何を、どう使うか」を判断する汎用的な推論スキルとして習得させる新しいモデルファミリーである。

6255 字
読む →

FadeMem:効率的なエージェントメモリのための生物学に着想を得た忘却機構

大規模言語モデル(LLM)エージェントの長期運用における課題である情報の過負荷と破滅的忘却を解決するため、人間の「忘却」プロセスを模倣した二層構造のメモリ管理アーキテクチャ「FadeMem」が提案されました。

5938 字
読む →

継続的ファインチューニングにおける大規模言語モデルの破滅的忘却のメカニズム的分析

109Bから1.5T規模の大規模言語モデルを対象に、継続学習における破滅的忘却の内部メカニズムを分析し、下位層の注意機構での勾配干渉、中間層の表現ドリフト、損失曲面の平坦化という3つの主要要因を特定した。

5861 字
読む →

Gained in Translation: Privileged Pairwise Judges Enhance Multilingual Reasoning

現在の大規模言語モデルは英語以外の言語、特に学習データが少ない低リソース言語において推論能力が著しく低下するという深刻な課題を抱えていますが、本研究は対象言語のデータを一切使わずに英語の翻訳データと強化学習のみで能力を向上させる「SP3F」という革新的な二段階フレームワークを提案しました。

5890 字
読む →