継続更新

ShopSimulator: ショッピングアシスタント向け強化学習駆動型LLMエージェントの評価と探索

ShopSimulatorは、130万点以上の実商品データと詳細なパーソナライズ情報を備えた、中国語圏最大級のECエージェント学習・評価用シミュレーション環境であり、多ターン対話や細部属性の識別といった現実的な課題を統合している。

ShopSimulator: ショッピングアシスタント向け強化学習駆動型LLMエージェントの評価と探索 の図解
論文図解

TL;DR(結論)

ShopSimulatorは、130万点以上の実商品データと詳細なパーソナライズ情報を備えた、中国語圏最大級のECエージェント学習・評価用シミュレーション環境であり、多ターン対話や細部属性の識別といった現実的な課題を統合している。 既存の最先端LLMエージェントを評価した結果、最高性能のモデルでも完全成功率は40%未満に留まり、特に多ターン対話における情報の蓄積や、パーソナライズ情報と検索結果の適切なバランス維持に大きな課題があることが浮き彫りになった。 教師あり微調整(SFT)による基礎学習と、ボトルネックを考慮した厳格な乗算報酬を用いる強化学習(RL)を組み合わせることで、属性一致率や選択精度が大幅に向上し、複雑な購買タスクにおけるエージェントの信頼性を高められることが検証された。

なぜこの問題か

現代の電子商取引(EC)プラットフォームにおいて、ユーザー体験を根本的に向上させるためには、単なるキーワード検索を超えた、パーソナライズされた対話型の製品検索が不可欠な要素となっている。しかし、現実のショッピングシナリオでは、ユーザーの目的が最初から明確であることは少なく、対話を通じて目的が変化したり、曖昧な表現が使われたりすることが一般的である。このような状況で効果的に機能するショッピングアシスタントには、ユーザーのプロフィールや過去の行動履歴から潜在的な好みを推測し、多ターンの対話を通じて不明瞭な点を解消する高度な推論能力が求められる。さらに、膨大な類似商品の中から、ユーザーの細かなこだわりを反映した最適な一点を識別する能力も必要である。 既存の研究では、WebShopやDeepShopといったシミュレーション環境が提案されてきたが、これらにはいくつかの重大な限界が存在していた。第一に、パーソナライズ、多ターン対話、そして微細な商品識別の三要素を同時に、かつ統一的に捉えた環境が不足していた点である。…

核心:何を提案したのか

本論文では、現実世界の製品データとユーザー特性に基づいた中国語ECサンドボックス環境である「ShopSimulator」を提案している。この環境は、LLMベースのエージェントがユーザーと対話し、商品を検索・閲覧し、最終的に最適な商品を推奨する一連のプロセスをシミュレートするように設計されている。ShopSimulatorの最大の特徴は、単なる評価用ベンチマークにとどまらず、強化学習によるモデルの訓練を全面的にサポートしている点にある。これにより、エージェントは試行錯誤を通じて最適な購買戦略を自律的に学習することが可能となる。 ShopSimulatorの基盤となる商品カタログは、中国最大のECプラットフォームであるTaobaoから収集された130万点以上の実データで構成されている。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む