本研究は、Transformerモデルの深層におけるアクティベーションの冗長性を利用した新しいトレーニング手法「EPAS」を提案します。トレーニング中にデコーダ層のアクティベーション共有領域を徐々に拡大することで、計算コストを削減します。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related