LLMベースの執筆支援などで自然発生する「コンテキスト、エージェントの応答、ユーザーの編集」からなるデータを用いたファインチューニング手法の研究。選好、教師ありラベル、コストという異なるフィードバックを統合し、アンサンブル学習することで、個別の手法よりも優れた性能とロバスト性を示した理論的かつ実証的な研究である。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related