CrispEditは、編集が一見成功しても一般的な能力が静かに壊れるという「能力保持」の難しさを正面から扱い、能力の変化を小さく抑えることを明示的な制約として組み込む手法です。 / 編集を制約付き最適化として定式化し、能力損失の地形で曲率が小さい部分空間へ更新を射影して、能力に敏感な方向の更新成分を取り除く設計にしています。 / 標準的なモデル編集ベンチマーク全体で高い編集成功を保ちながら、データセット平均の能力劣化を1%未満に抑え、従来の編集器より編集と保持のトレードオフを大きく改善したと報告されています。
大規模言語モデル(LLM)は検索や質問応答などの知識作業を支える基盤として広く使われていますが、事実の変化、新しい発見、製品仕様の更新、幻覚や安全上の問題の発覚などにより、モデルの出力がすぐに「古く」なりやすいです。最も素直な対応は再学習ですが、時間と計算資源の負担が大きく、運用の観点では頻繁に回すことが難しくなります。そこでモデル編集は、特定の事実を修正したり、新しい知識を差し込んだり、望ましくない振る舞いを抑えたりしつつ、それ以外の挙動を維持するための現実的な選択肢として位置づけられています。 一方で編集は、狙った振る舞いだけが変わったように見えても、編集で用いる代理的な目的を「うまく利用」してしまい、広い能力を損ねることがあると指摘されています。これは報酬や代理指標のハッキングに似た退化として説明され、推論が脆くなる、指示追従が弱まる、流暢さが壊れるといった形で現れ得ます。過去の研究では、更新するパラメータを絞る、知識が宿る場所を局在化する、表現の変化を制約する、といったガードレールが提案されてきました。…
CrispEdit(Curvature-Restricted In-Situ Parameter Editing)は、能力保持を「後から確認する性質」ではなく「最適化で守る制約」として扱う、第二次情報(曲率)に基づく編集アルゴリズムです。論文が強調する中心点は、編集で下げたい編集損失と、維持したい能力損失を同時に扱い、能力側の変化がごく小さい範囲に収まるように編集更新そのものを制御することです。編集が成功して見える一方で能力が壊れる状況を、代理目標の抜け道を突く退化として捉え、その回避を設計目標に据えています。 具体的には、能力損失の地形における「曲率が小さい方向」へ更新を射影し、能力に敏感な「曲率が大きい方向」への移動成分を落とす方針を取ります。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related