Flow Matchingを用いた生成モデルにおいて、従来のキャッシュ手法が依存していた「瞬間速度」の情報は変動が激しく、高い加速率では軌道の逸脱や誤差の蓄積を招くという課題がありました。本研究が提案する「MeanCache」は、瞬間速度を「区間平均速度」へと変換し、キャッシュされたヤコビアン・ベクトル積(JVP)を用いて軌道を補正することで、学習不要かつ軽量な形で生成品質を維持しながら推論を大幅に高速化します。FLUX.1やHunyuanVideoなどの商用規模モデルを用いた検証では、最大で4.56倍の高速化を達成し、既存の最先端手法と比較しても高い画像・動画品質と構造的一貫性を保持できることが実証されました。
Flow Matchingを用いた生成モデルにおいて、従来のキャッシュ手法が依存していた「瞬間速度」の情報は変動が激しく、高い加速率では軌道の逸脱や誤差の蓄積を招くという課題がありました。本研究が提案する「MeanCache」は、瞬間速度を「区間平均速度」へと変換し、キャッシュされたヤコビアン・ベクトル積(JVP)を用いて軌道を補正することで、学習不要かつ軽量な形で生成品質を維持しながら推論を大幅に高速化します。FLUX.1やHunyuanVideoなどの商用規模モデルを用いた検証では、最大で4.56倍の高速化を達成し、既存の最先端手法と比較しても高い画像・動画品質と構造的一貫性を保持できることが実証されました。
Flow Matchingは、画像、動画、マルチモーダル生成の分野で顕著な進歩を遂げており、連続的な輸送経路を学習するための簡潔で効果的なパラダイムとして注目されています。しかし、FLUX.1やQwen-Image、HunyuanVideoといった商用規模のモデルにおいては、膨大なメモリ使用量、ステップごとの重い計算コスト、そして長い推論レイテンシが大きな障壁となっています。これにより、インタラクティブなアプリケーションやリソースが制限された環境での利用が困難になっています。従来の高速化手法には蒸留やプルーニング、量子化などがありますが、これらは通常、モデル構造の変更や大規模な再学習を必要とします。一方で、中間表現を再利用するキャッシュベースの手法は、学習不要で軽量な代替案として期待されています。しかし、既存のキャッシュ手法には「誤差の蓄積」という重大な欠点があります。 既存手法は主に「瞬間速度」の情報(特徴量キャッシュなど)に依存していますが、デノイジングの軌道に沿って瞬間速度は急激に変動するため、高い加速率では軌道が真の経路から大きく逸脱してしまいます。…
本研究は、キャッシュの問題を「瞬間速度」のドメインから「平均速度」のドメインへと再定義する、学習不要のフレームワーク「MeanCache」を提案しました。この提案の核心は、変動の激しい瞬間速度ではなく、より滑らかで安定した性質を持つ「区間平均速度」を利用することで、軌道の安定性を確保するという点にあります。MeanCacheは主に2つのコンポーネントで構成されています。第一に、キャッシュされたヤコビアン・ベクトル積(JVP)を活用して、瞬間速度から区間平均速度を近似的に構築する仕組みです。これにより、限られた計算予算の中でも、より正確なガイダンス信号を得ることが可能になり、局所的な誤差の蓄積を効果的に抑制します。 第二に、キャッシュのタイミングとJVPの再利用の安定性をさらに向上させるための「軌道安定性スケジューリング戦略」を開発しました。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related