推論ホップのスケールアップが露呈させる弱点:大規模言語モデルにおけるホップ汎化の解明と改善
大規模言語モデル(LLM)は、学習時を超える推論ステップ(ホップ数)を要求されると、必要なスキルが同一であっても性能が急激に低下する「ホップ汎化」の課題を抱えており、本研究はその失敗が特定のトークン位置における「主要エラータイプ」に集中していることを突き止めました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
大規模言語モデル(LLM)は、学習時を超える推論ステップ(ホップ数)を要求されると、必要なスキルが同一であっても性能が急激に低下する「ホップ汎化」の課題を抱えており、本研究はその失敗が特定のトークン位置における「主要エラータイプ」に集中していることを突き止めました。
本研究は、映画鑑賞時の脳波(EEG)データを用い、S5(状態空間モデル)やEEGXF(安定化Transformer)を含む5つのモデルで時間的コンテキストの影響を検証した。 結果として、S5は64秒の長いセグメントで98.
大規模言語モデル(LLM)が自身の知識の境界を認識できず、事実に基づかない回答を生成する「ハルシネーション」の問題を解決するため、事前学習データにアクセス可能な公開モデル「Pythia」を活用した新しい評価ベンチマーク「TIP-TRIVIAQA」が提案されました。
大規模言語モデルの多言語における数学的推論能力を正確に評価するため、既存のMGSMを拡張し、数値や名前の変更、無関係な文脈の挿入を施した5つのバリエーションを持つ新データセット「MGSM-Pro」を提案し、モデルが特定の数値パターンを記憶している可能性を排除した。
従来のガバナンスモデルは、あらかじめ定義されたルールと事後の責任追及に依存しているが、判断そのものを機械の速度で実行するエージェント型AIの登場により、人間がシステムの挙動を追跡・修正するための「時間」という前提条件が崩壊し、既存の枠組みは構造的な限界を迎えている。
現代の自律型コードエージェントは、高度な推論能力を持つ一方で、自身の挙動を規定する隠されたシステムプロンプトを体系的に探索・復元されてしまうという、これまで認識されていなかった重大なセキュリティ上の脆弱性を抱えている。
複雑な動的システムの予測において、従来の物理情報に基づく機械学習は明示的な支配方程式を必要としていたが、本研究では方程式が未知または不完全な場合でも適用可能なPHDMEという新しい拡散モデルの枠組みを提案している。
大規模言語モデル(LLM)が金融や医療などの重要領域で活用される中、従来の平均値に基づく評価指標では、稀に発生するが深刻な社会的危害や最悪のケースにおける不適切な挙動を見逃してしまうという構造的な課題が存在しています。
本研究は、言語モデルの生成能力が訓練データに含まれる有限個のノイズから受ける影響を理論的に解明し、クリーンなデータとわずか1つのノイズの間には生成可能な言語集合の厳密な減少を伴う決定的な断絶があることを数学的に証明した。
自己回帰型視覚生成(ARVG)モデルは、拡散モデルに匹敵する性能を持つ一方で、巨大なモデルサイズと推論時の計算コストが課題となっており、既存の量子化手法ではチャネル間の外れ値や動的なアクティベーション、サンプル間の分布の不一致を十分に解決できていない。