本研究は、大規模言語モデルの学習データ選別を効率化する「TBDFiltering」を提案しています。テキスト埋め込みに基づく階層的クラスタリングを活用し、LLMへの問い合わせを適応的に選択することで、全データの品質を推定します。少数のサンプル評価のみで高い精度を実現し、従来の分類器ベースの手法よりも優れた性能を実験で示しています。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related