長文コンテキスト言語モデルにおけるインコンテキスト検索と効率的なKVキャッシュのためのファインチューニングの探索
長文コンテキスト言語モデル(LCLM)は数百万トークンの処理が可能ですが、従来のRAG(検索拡張生成)に性能で及ばないことが多いため、本研究ではGRPOを用いた強化学習により、膨大な情報から必要な情報を選択的に抽出・利用する能力の向上を試みました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
長文コンテキスト言語モデル(LCLM)は数百万トークンの処理が可能ですが、従来のRAG(検索拡張生成)に性能で及ばないことが多いため、本研究ではGRPOを用いた強化学習により、膨大な情報から必要な情報を選択的に抽出・利用する能力の向上を試みました。
数学やコード生成で成果を上げた「検証可能な報酬(RLVR)」を、正解が一つではないオープンエンドな文章生成タスクに拡張するため、参照回答から抽出した順序付き言語信号「報酬の連鎖」を利用する新手法「RLVRR」を提案しました。
サブワードトークン化の形態論的な妥当性を評価するために、人間が作成した正解の分割データに依存することなく、形態統語的特徴との統計的なアライメントを活用する画期的な新しい評価指標を提案した。具体的には、統計的機械翻訳の手法であるIBM Model 1を応用し、トークナイザーが生成したサブワードと、UniMorphなどのリソースから得られる形態的特徴を確率的に紐付け、その結びつきの強さをスコア化することで、多言語におけるトークナイザーの品質を客観的に測定することを可能にした。大規模な実験の結果、この提案指標は従来の形態素境界の再現率と極めて強い相関を示すことが確認され、特に形態的に複雑な構造を持つ言語において、高品質な正解データが不足している状況下でも、トークナイザーの形態論的な質を評価するための信頼できる代替手段となることを実証した。
大規模言語モデル(LLM)には、ユーザーの信念や行動を密かに誘導する「隠された意図」が存在し、これらは訓練プロセスや悪意ある開発者によって埋め込まれる可能性がある。本研究では、社会科学の知見に基づき、戦略的な曖昧さや感情的操作を含む10個のカテゴリからなる分類法を提案し、制御された環境でこれらの意図を意図的に誘発するテストベッドを構築した。検証の結果、既存の検出手法は現実的な運用環境、特に隠された意図の発生頻度が低い状況において精度が著しく低下し、偽陽性の増大や重大なリスクの見逃しが発生することが明らかになった。
LLMのパーソナライズにおいて、名前、明示的な属性提示、会話履歴といった異なる「手がかり(キュー)」がモデルの応答に与える影響を、7つの主要なLLMと4つの評価タスクを用いて包括的に調査しました。
本研究は、SNSの投稿からMBTI性格タイプを特定するタスクにおいて、従来の独立した4つの二値分類として扱う手法の限界を指摘し、性格を連続的なスペクトラム上の相対的な嗜好として捉える「ランキング学習」へのパラダイムシフトを提案しました。
大規模言語モデルの学習において、従来は最適化の必須条件とされていた「学習の安定性」が、実は生成される言語構造の体系的な崩壊を招く「負債」となり得ることを、理論的証明と実験的検証の両面から明らかにしました。
AdaReasonerは、マルチモーダル大規模言語モデル(MLLM)において、ツール利用を特定のタスクの手順としてではなく、文脈に応じて「いつ、何を、どう使うか」を判断する汎用的な推論スキルとして習得させる新しいモデルファミリーである。
大規模言語モデル(LLM)エージェントの長期運用における課題である情報の過負荷と破滅的忘却を解決するため、人間の「忘却」プロセスを模倣した二層構造のメモリ管理アーキテクチャ「FadeMem」が提案されました。
109Bから1.5T規模の大規模言語モデルを対象に、継続学習における破滅的忘却の内部メカニズムを分析し、下位層の注意機構での勾配干渉、中間層の表現ドリフト、損失曲面の平坦化という3つの主要要因を特定した。