大規模言語モデル(LLM)のユニットテスト保守能力を評価するフレームワーク「TAM-Eval」が提案されました。テストの生成・修正・更新という3つの主要シナリオを含み、関数単体ではなくファイルレベルかつリポジトリ全体のコンテキストを考慮します。既存の最先端LLMでも実際の保守作業には限界があることが示唆されました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related