Transformerの推論を複数デバイスで効率的に行うため、中間表現を圧縮するレート歪みベースのフレームワークを提案した研究である。ビットレートと精度のトレードオフを学習するこの手法は、言語ベンチマークにおいて、より複雑なベースライン手法を上回る圧縮率と精度を達成した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related