Fast weightアーキテクチャは文脈長に対して一定のメモリ負荷で推論しやすい一方、次トークン予測だけの学習では接頭辞の後に続く複数トークンの意味的一貫性を直接は最適化できず、長距離依存を取りこぼしやすいと指摘されています。
長文脈モデリングは、長い文書の理解、many-shotの文脈内学習、コード生成などで重要性が増しており、数千トークン規模の文脈から情報を取り出して保持し、必要なタイミングで再利用する能力が求められています。注意機構に基づくTransformerはこれらの課題で強い性能を示す一方、文脈長に対して計算量とメモリが二乗で増える点が、学習と推論の両方で根本的な制約になります。そこで、グローバルな注意の代わりに固定サイズのメモリを用い、トークン処理に合わせてそのメモリを動的に更新するFast weightアーキテクチャが、長文脈に対する代替として注目されています。論文が強調している利点は、文脈長に依存しない一定のメモリ負荷で推論できる点です。 一方で本研究は、「アーキテクチャだけを変えても、学習目的が次トークン予測(NTP)のままでは潜在能力が十分に引き出されない」と問題設定を置いています。NTPは各位置で次の1トークンを当てる損失であり、同じ内部状態(Fast weightsやメモリ状態)に依存する“その先の複数トークン”の品質を直接には評価しません。…
著者らの提案の中心は、学習目標を次トークン予測から次シーケンス予測(NSP)へ拡張し、接頭辞に続く複数トークンの列として意味的に整合した継続を促すことです。NSPは、Fast weightsに保存された情報が「次の1トークン」だけでなく「複数ステップ先の継続」にも有効かどうかを学習信号に反映しやすくする意図があります。しかし、NSPを通常の交差エントロピーで素直に最適化しようとすると、あらゆる接頭辞位置で複数トークン生成が必要になり、長文脈では計算的に重くなります。加えて、参照列と完全一致しない言い換えのような妥当な継続も強く罰してしまい、列の品質を適切に捉えにくい点が課題として挙げられています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related