TAME:体系的なベンチマークによる信頼性の高いエージェントメモリのテスト時進化
テスト時の学習において、エージェントが経験を蓄積して推論能力を高める過程で、安全性の調整が損なわれる「エージェントメモリの誤進化」という現象が課題となっている。 この現象を評価するため、数学、科学、ツール利用の3領域を網羅し、安全性、堅牢性、真実性、プライバシー、公平性の5次元で信頼性を測定する初のベンチマーク「Trust-Memevo」を構築した。 実行者と評価者のメモリを分離した二層構造フレームワーク「TAME」を提案し、憲法的な制約に基づくフィルタリングと洗練を通じて、タスクの有用性と信頼性の両立を達成した。