AI研究 2026-01-29 GAVEL:アクティベーション監視を通じたルールベースの安全性に向けて 大規模言語モデル(LLM)の内部状態を「認知要素(CE)」という解釈可能な最小単位に分解し、それらを論理ルールで組み合わせることで、高度な安全監視を実現するフレームワーク「GAVEL」が提案されました。 cs.AI cs.CR cs.LG 6268 字 読む → 保存