学習ベースの画像圧縮(LIC)モデルの訓練において、ビットレート削減と歪み最小化という相反する目的が引き起こす「勾配の衝突」を解決するため、二次曲率情報を活用する準ニュートン最適化手法「SOAP」を導入した。
学習ベースの画像圧縮(LIC)モデルの訓練において、ビットレート削減と歪み最小化という相反する目的が引き起こす「勾配の衝突」を解決するため、二次曲率情報を活用する準ニュートン最適化手法「SOAP」を導入した。ELIC、TCM、LALIC、DCAEといった最新のLICモデルを用いた広範な検証により、学習ステップ数を平均70%、実時間を約57.7%削減するという劇的な高速化を達成しつつ、最終的なBD-Rateを平均3%改善することに成功した。二次最適化が活性化値や潜在変数の外れ値を抑制し、特徴量の統計を安定させることを理論と実験の両面で証明し、学習後の量子化(PTQ)に対する堅牢性を高めることで、リソース制約のあるデバイスへの実装を容易にする実用的な利点も明らかにした。
学習ベースの画像圧縮(LIC)は、従来のコーデックを凌駕する高い圧縮性能を示しているが、その訓練プロセスには膨大な計算資源と時間が必要とされることが大きな課題となっている。例えば、最新の高性能モデルであるLALICの訓練には、1枚のH100 GPUを使用しても、完全なレート歪み(R-D)曲線を導き出すまでに1000時間を超える計算が必要になる場合がある。この極めて遅い収束速度は、研究開発のサイクルを停滞させる主要な障壁となっている。この遅延の根本的な原因は、ビットレート(R)の削減と歪み(D)の最小化という、本質的に相反する二つの目的関数を同時に最適化する際に発生する「勾配の衝突」にある。従来の訓練で一般的に用いられるAdamやSGDといった一次最適化手法は、損失関数の局所的な傾斜(勾配)のみを利用してパラメータを更新する。しかし、画像圧縮の損失曲面は非常に複雑であり、ビットレート項と歪み項の勾配が互いに打ち消し合うような状況では、一次手法では効率的に最適解へ進むことができない。…
本研究の核心は、画像圧縮モデルの訓練において、従来の一次最適化手法を、二次曲率情報を効率的に活用する準ニュートン最適化手法である「SOAP」に置き換えることを提案した点にある。SOAPは、損失関数の二次導関数(ヘッセ行列)の情報を利用することで、パラメータ空間の幾何学的な構造を考慮した更新を行う。これにより、従来のAdamなどが陥っていた勾配の衝突を、数学的な裏付けを持って解消することが可能になる。特筆すべきは、この提案が「ドロップイン置換」として機能することである。つまり、モデルのアーキテクチャを変更したり、損失関数を複雑に再定義したり、あるいは訓練パイプラインに大幅な修正を加えたりすることなく、単にオプティマイザを差し替えるだけで、学習の高速化と性能向上の両方を享受できる。このアプローチは、画像圧縮におけるレート歪み最適化を、単なるスカラー値の最小化ではなく、多目的最適化の観点から捉え直している。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related