継続更新

LMK > CLS:密な埋め込みのためのランドマークプーリング

従来の密な埋め込みで主流だった[CLS]トークンや平均プーリングには、長い文章において情報の偏りや重要な信号の希釈が生じるという構造的な弱点がありました。本研究が提案するランドマーク(LMK)プーリングは、文章を一定の間隔で区切り、その間に挿入した複数の特殊トークンの埋め込みのみを平均化することで、情報のボトルネックを解消します。検証の結果、この手法は短い文章での精度を維持しつつ、長い文章の検索タスクにおいて既存手法を大幅に上回る性能と高い外挿性を示し、実用的で拡張可能な代替案となることが証明されました。

LMK > CLS:密な埋め込みのためのランドマークプーリング の図解
論文図解

TL;DR(結論)

従来の密な埋め込みで主流だった[CLS]トークンや平均プーリングには、長い文章において情報の偏りや重要な信号の希釈が生じるという構造的な弱点がありました。本研究が提案するランドマーク(LMK)プーリングは、文章を一定の間隔で区切り、その間に挿入した複数の特殊トークンの埋め込みのみを平均化することで、情報のボトルネックを解消します。検証の結果、この手法は短い文章での精度を維持しつつ、長い文章の検索タスクにおいて既存手法を大幅に上回る性能と高い外挿性を示し、実用的で拡張可能な代替案となることが証明されました。

なぜこの問題か

検索、クラスタリング、分類、再ランキングといった多くの下流タスクにおいて、表現学習は中心的な役割を担っています。現代のシーケンスエンコーダは、可変長のトークン列を単一のベクトルに圧縮するためにプーリング操作を用いますが、最も一般的なのは[CLS]トークンという特殊なトークンを使用するか、あるいは全トークンの埋め込みを平均化する手法です。しかし、これらの戦略には系統的な弱点があることが判明しました。[CLS]プーリングは、情報の重みをシーケンスの初期位置に集中させる傾向があり、文章全体に分散した証拠を十分に表現できないという問題があります。一方で、平均プーリングは、局所的に重要な信号を希釈してしまい、短いコンテキストでの性能を低下させることがあります。 特に、トランスフォーマー(Transformer)アーキテクチャにおいて回転式位置埋め込み(RoPE)を使用する場合、[CLS]トークンへの注意(Attention)は、相対的な距離が離れるにつれて減衰するという性質があります。…

核心:何を提案したのか

本論文では、従来のプーリング手法の限界を打破するために、ランドマーク(LMK)プーリングという新しい手法を提案しています。このアプローチは、検索拡張生成(RAG)システムにおけるチャンク化の影響を緩和するために提案された既存のアイデアから着想を得ていますが、本研究ではそれを密なパッセージ検索(DPR)の設定へと拡張しました。LMKプーリングの核心は、シーケンスの冒頭にある単一の特殊トークンに頼るのではなく、入力トークンの一定の間隔ごとに複数の特殊な「ランドマークトークン」を挿入することにあります。 具体的には、入力されたテキストシーケンスをいくつかのチャンクに分割し、各チャンクの後にランドマークトークンを配置します。最終的な文章の表現ベクトルは、シーケンス内のすべてのトークンを平均化するのではなく、これら挿入されたランドマークトークンの埋め込みのみを抽出して平均プーリングを行うことで形成されます。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む