AI研究 2026-02-01 タグ: cs.LG, cs.AI

HER：LLMロールプレイングのための人間らしい推論と強化学習

現在の大規模言語モデル（LLM）によるロールプレイは、キャラクターの口調や知識の模倣には長けているものの、その行動の背後にある内面的な思考や推論をシミュレートすることが困難であるという課題を抱えています。

論文図解

TL;DR（結論）

現在の大規模言語モデル（LLM）によるロールプレイは、キャラクターの口調や知識の模倣には長けているものの、その行動の背後にある内面的な思考や推論をシミュレートすることが困難であるという課題を抱えています。本研究では「HER（Human Emulation Reasoning）」という統合フレームワークを提案し、隠された三人称視点の「システム思考」と、可視化された一人称視点の「ロール思考」を分離する「二層思考（Dual-layer Thinking）」を導入しました。この手法をQwen3-32Bに適用した結果、CoSERベンチマークで30.26％、Minimaxロールプレイベンチで14.97％の性能向上を達成し、より一貫性があり人間らしいキャラクターの再現が可能になったことが示されました。

なぜこの問題か

大規模言語モデルを用いたロールプレイは、デジタルゲームやコンテンツ制作、対話型ストーリーテリングなどの分野で重要な機能となっています。しかし、既存のモデルは表面的な話し方や事実に関する知識を再現することはできても、キャラクターがなぜその発言を選んだのかという「内面的な推論」を深く模倣することには限界がありました。この問題の背景には、高品質な推論プロセスを含むデータセットの不足と、人間の好みに合致した信頼できる報酬信号の欠如という二つの大きな欠陥が存在しています。従来のデータセットにもキャラクターの内面的な思考が含まれることはありましたが、それらは短く浅い内容に留まっており、深い推論を学習させるための教師信号としては不十分でした。また、ロールプレイの出力は本質的にオープンエンドであり、正解が一つに定まらないため、モデルが表面的な特徴（文章の長さや感情的な単語など）だけを学習してしまう「ショートカット学習」に陥りやすいという性質があります。このような状況では、モデルがキャラクターの動機や計画に基づいて行動しているのではなく、単に統計的なパターンを模倣しているに過ぎないという懸念が生じます。…

核心：何を提案したのか

本研究の核心は、LLMに構造化された思考プロセスを装備させ、人間の好みに整合した強化学習を行うための統合フレームワーク「HER」の提案にあります。HERの最大の特徴は「二層思考（Dual-layer Thinking）」という概念の導入です。これは、モデルの思考を「三人称視点のシステム思考」と「一人称視点のロール思考」の二つのレイヤーに分離するものです。システム思考はユーザーには見えない隠れたプロセスであり、キャラクターのプロファイルやシーンの制約を分析し、次の行動計画を立てる役割を担います。一方でロール思考は、キャラクター自身の内面的な独白として出力に含まれ、感情や意図を表現します。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。