LMK > CLS:密な埋め込みのためのランドマークプーリング
従来の密な埋め込みで主流だった[CLS]トークンや平均プーリングには、長い文章において情報の偏りや重要な信号の希釈が生じるという構造的な弱点がありました。本研究が提案するランドマーク(LMK)プーリングは、文章を一定の間隔で区切り、その間に挿入した複数の特殊トークンの埋め込みのみを平均化することで、情報のボトルネックを解消します。検証の結果、この手法は短い文章での精度を維持しつつ、長い文章の検索タスクにおいて既存手法を大幅に上回る性能と高い外挿性を示し、実用的で拡張可能な代替案となることが証明されました。