従来のLLM文埋め込みで主流だったコサイン類似度は、局所的な意味の変化に対する感度が低く、人間が感じる類似性を十分に反映できないという課題がありました。 本論文では、リプシッツ連続性の概念に着想を得て、入力時の単語埋め込みと出力時のLLM埋め込みの間の変化率を測定する新指標「DDR(Distance-to-Distance Ratio)」を提案しました。 実験の結果、DDRは類義語置換とランダム置換を明確に区別でき、従来のCentroid法やEOS法を大幅に上回る識別性能と高次元空間における安定性を持つことが確認されました。
従来のLLM文埋め込みで主流だったコサイン類似度は、局所的な意味の変化に対する感度が低く、人間が感じる類似性を十分に反映できないという課題がありました。 本論文では、リプシッツ連続性の概念に着想を得て、入力時の単語埋め込みと出力時のLLM埋め込みの間の変化率を測定する新指標「DDR(Distance-to-Distance Ratio)」を提案しました。 実験の結果、DDRは類義語置換とランダム置換を明確に区別でき、従来のCentroid法やEOS法を大幅に上回る識別性能と高次元空間における安定性を持つことが確認されました。
テキスト埋め込み間の類似度測定が適切であるためには、それが人間が感じるテキスト間の意味的な類似性の知覚と一致していなければなりません。現在の多くのアプリケーションでは、ドメイン内のオブジェクトは類似度関数や距離関数を備えた数学的構造内のベクトルとして表現されています。しかし、現在のLLMパイプラインで広く利用されているコサイン類似度やコサイン距離が、文脈化された埋め込みから意味的な類似性を測定する上で本当に信頼できるかどうかについては、依然として結論が出ていないという不確実性があります。一般的に、2つのテキストが意味的に類似していると見なされるためには、全く同じ単語を使用しているかどうかにかかわらず、それらが「同じことを意味している」必要があります。例えば、「猫はネズミを追いかけるのを楽しんだ」という文は、「そのネコ科の動物は齧歯動物の後を走るのを好んだ」という文と意味的に類似していますが、「外は雨が降っている」という文とは意味的に異なります。…
本論文では、LLMの文埋め込み間の新しい類似度指標として「DDR(Distance-to-Distance Ratio:距離対距離比)」を導入しました。この指標は、関数の変化率を測定するリプシッツ定数や、リプシッツ型の距離拡大の概念から着想を得ています。DDRは、コンテキスト適用前の単語埋め込み間の類似性と、コンテキスト適用後のLLM埋め込み間の類似性の変化率を測定するものです。これにより、コンテキストが持つ意味的な影響力を直接的に数値化することが可能になります。DDRの大きな特徴は、事前と事後の距離を個別に扱うのではなく、その「比率」を直接計算する点にあります。先行研究によれば、基礎となる量そのものを推定するよりも、比率を推定する方が数学的に堅牢である場合が多いことが示されています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related