本研究では、連分数に着想を得た新しい生成モデリング用関数クラス「CoFrGeNets」を提案しています。これはTransformerの主要コンポーネントをより少ないパラメータで代替可能なアーキテクチャです。GPT2-xlやLlama3を用いた実験では、パラメータ数を大幅に削減しつつ、下流タスクで同等以上の性能を示しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related