近年の視覚言語モデルは高精度な画像文書検索(VDR)を実現しましたが、インデックスサイズが巨大になる問題があります。本研究では、追加学習なしでインデックスサイズを90%以上削減可能な「Structural Anchor Pruning (SAP)」を提案しました。中間層から重要な視覚パッチを特定することで、高い検索精度を維持しつつ大幅な圧縮を実現します。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related