継続更新

LMK > CLS: 高密度埋め込みのためのランドマークプーリング

従来のテキスト埋め込みにおける[CLS]プーリングは系列の先頭に情報が偏る傾向があり、平均プーリングは重要な局所信号を希釈してしまうという系統的な弱点があるが、本研究が提案するランドマーク(LMK)プーリングは系列をチャンクに分割して特殊トークンを挿入し、それらの埋め込みのみを平均化することで長文への対応力を劇的に高める。 この手法は、入力テキストの各所に配置されたランドマークトークンがそれぞれの区間の情報を適応的に集約するため、単一のトークンに表現の負担を強いることなく、系列全体から重要な特徴を抽出して固定次元のベクトルに変換することが可能であり、特に長文コンテキストにおける情報の消失や偏りの問題を解決する。 検証の結果、LMKプーリングは短文の検索タスクにおいて既存の標準的な手法と同等の高い性能を維持しつつ、長文タスクにおいては従来手法を大幅に上回る精度向上を達成しており、現代のテキストエンコーダにおける実用的かつ計算効率に優れた新しい標準的なプーリング手法としての有効性が示された。

LMK > CLS: 高密度埋め込みのためのランドマークプーリング の図解
論文図解

TL;DR(結論)

従来のテキスト埋め込みにおける[CLS]プーリングは系列の先頭に情報が偏る傾向があり、平均プーリングは重要な局所信号を希釈してしまうという系統的な弱点があるが、本研究が提案するランドマーク(LMK)プーリングは系列をチャンクに分割して特殊トークンを挿入し、それらの埋め込みのみを平均化することで長文への対応力を劇的に高める。 この手法は、入力テキストの各所に配置されたランドマークトークンがそれぞれの区間の情報を適応的に集約するため、単一のトークンに表現の負担を強いることなく、系列全体から重要な特徴を抽出して固定次元のベクトルに変換することが可能であり、特に長文コンテキストにおける情報の消失や偏りの問題を解決する。 検証の結果、LMKプーリングは短文の検索タスクにおいて既存の標準的な手法と同等の高い性能を維持しつつ、長文タスクにおいては従来手法を大幅に上回る精度向上を達成しており、現代のテキストエンコーダにおける実用的かつ計算効率に優れた新しい標準的なプーリング手法としての有効性が示された。

なぜこの問題か

現代のテキストエンコーダにおいて、可変長のトークン系列を固定次元の単一ベクトルに変換するプーリング操作は、検索やクラスタリング、分類といった下流タスクの性能を左右する極めて重要な要素である。 しかし、最も一般的に利用されている[CLS]トークンを用いたプーリングや、全トークンの埋め込みを平均化する平均プーリングには、それぞれ深刻な系統的弱点が存在することが本研究で特定された。 [CLS]プーリングは、系列の開始位置にある単一の特殊トークンにすべての情報を集約させる設計であるが、これは単一の位置に過度な表現上の負担を強いることになり、特に長い文章において分散された証拠を十分に表現できないという問題がある。 さらに、多くのトランスフォーマーモデルで採用されている回転式位置埋め込み(RoPE)の特性により、[CLS]トークンからの距離が離れるほどアテンションの重みが減衰する「長期減衰」が発生し、情報の抽出が系列の初期位置に著しく偏る傾向がある。…

核心:何を提案したのか

本論文では、既存のプーリング手法の限界を打破するために、シンプルながらも強力な「ランドマーク(LMK)プーリング」という手法を提案している。 この手法の核心は、入力系列の全体にわたって複数の特殊な「ランドマークトークン」を等間隔または戦略的な位置に配置し、最終的な文書表現をこれらのランドマークトークンの埋め込みのみを平均化することで構築する点にある。 具体的には、入力テキストを複数のチャンクに分割し、各チャンクの末尾にランドマークトークンを挿入する。 ランドマークトークンとしては、既存の[SEP]トークンや[EOS]トークンを流用することが可能であり、新たな語彙を追加する必要がない。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む