CASSANDRAは、ビジネスドメインのような決定論的挙動と確率的挙動が混在する複雑な環境において、LLMが生成するコードと確率的グラフィカルモデル(PGM)を統合した新しいニューロシンボリックな世界モデル構築手法である。
CASSANDRAは、ビジネスドメインのような決定論的挙動と確率的挙動が混在する複雑な環境において、LLMが生成するコードと確率的グラフィカルモデル(PGM)を統合した新しいニューロシンボリックな世界モデル構築手法である。 LLMを因果構造の事前知識として活用し、観測データに基づいてプログラムの進化的修正とベイジアンネットワークの構造探索を組み合わせることで、従来のLLM直接利用やコード生成のみの手法よりも高い予測精度と計画性能を実現する。 遊園地やコーヒーショップのシミュレーターを用いた実験では、限られたデータから正確な遷移予測が可能であることを示し、特に遊園地環境では従来手法がほぼ破産する中で95%という高い生存率を達成し、意思決定における有効性が証明された。
現実世界のビジネスドメインにおいて、効果的な長期計画を立てるためには、環境の内部モデルである「世界モデル」を構築することが不可欠である。しかし、こうした環境は決定論的な動態と確率的な動態が混在しており、その両方を正確に捉えることは非常に困難な課題となっている。例えば、ピザ屋の経営において新しいオーブンを購入するという行動は、購入費用の支払いと調理時間の短縮という決定論的な効果をもたらすが、一方で調理時間の短縮が顧客満足度や需要、さらには売上や収益にどう影響するかという連鎖的な確率的効果も引き起こす。このような複雑な因果関係を、限られた観測データのみから学習することは極めて難しい。 既存のアプローチには、いくつかの大きな限界が存在する。まず、事前学習済みのLLMをそのままゼロショットの世界モデルとして利用する方法は、決定論的な変数の計算に必要な算術演算やシンボリックな推論において精度が低く、ドメイン固有のデータ分布を正確に捉えることもできない。…
本研究では、決定論的な動態のためのシンボリックなコードコンポーネントと、確率的な不確実性のための確率的グラフィカルモデルを統合した、デュアルストリームのニューロシンボリックフレームワークである「CASSANDRA(Combining A Symbolic and Stochastic Architecture for Non-deterministic Domains)」を提案した。このフレームワークは、自然言語による環境の説明を初期知識として活用し、プログラムモデルとグラフィカル構造の両方を初期化した後、観測された軌跡データを用いてそれらを洗練させていく。 CASSANDRAは、環境を「意味的に豊かな部分観測マルコフ決定過程(SRPOMDP)」としてモデル化する。このモデルは、観測空間、状態空間、行動空間、遷移関数、報酬関数、割引率、および環境の動態を記述したテキストコーパスで構成される。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related