距離対距離比:LLM埋め込みの変化率に基づく文の類似度尺度
従来のLLM文埋め込みで主流だったコサイン類似度は、局所的な意味の変化に対する感度が低く、人間が感じる類似性を十分に反映できないという課題がありました。 本論文では、リプシッツ連続性の概念に着想を得て、入力時の単語埋め込みと出力時のLLM埋め込みの間の変化率を測定する新指標「DDR(Distance-to-Distance Ratio)」を提案しました。 実験の結果、DDRは類義語置換とランダム置換を明確に区別でき、従来のCentroid法やEOS法を大幅に上回る識別性能と高次元空間における安定性を持つことが確認されました。