大型言語モデルの制御におけるスタイルベクトルの有効性:人間による評価
大型言語モデルの内部活性化を直接操作するアクティベーション・ステアリングは、追加学習や複雑なプロンプトを必要とせずに、出力の感情トーンを精密かつ段階的に制御できる軽量な手法である。本研究では、190人の参加者から7,000件以上の評価を収集する初の大規模な人間評価を実施し、人間がモデルの感情変化を明確に知覚できること、および自動評価指標と人間の直感が平均r=0.776という高い相関を示すことを証明した。特定の強度(λ≈0.15)でステアリングを行うことで、テキストの読みやすさを維持したまま「嫌悪」や「恐怖」などの感情を効果的に増幅できる一方、「驚き」の制御は比較的困難であるという感情ごとの特性や、モデルの基礎能力が制御の一貫性に寄与することが明らかになった。