大規模言語モデルは「自分が何を信じているか」を、内部で持っているのでしょうか? 意外なのは、その問いを“哲学”の言葉遊びで終わらせず、内部表現を実際に操作し、しかも計測して確かめようとしている点です。 この記事では、HOT-3という指標を、Belief Dominance(BD)
大規模言語モデルは「自分が何を信じているか」を、内部で持っているのでしょうか? 意外なのは、その問いを“哲学”の言葉遊びで終わらせず、内部表現を実際に操作し、しかも計測して確かめようとしている点です。 この記事では、HOT-3という指標を、Belief Dominance(BD)
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related