本研究は、深さ方向の再帰を利用して潜在的な推論を強化するフレームワーク「Dreamer」を提案します。シーケンス、深さ、スパースな専門家のアテンションを組み合わせることで、従来のモデルが抱えていた隠れ層サイズのボトルネックを解消します。少ない学習トークンで既存のSOTAモデルを凌駕する高い効率性を実現しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related