Me-Agentは、大規模言語モデル(LLM)を基盤としたモバイルエージェントにおいて、追加のモデル訓練を行うことなく、ユーザーの過去の行動履歴や潜在的な好みを学習してパーソナライズされた操作を実現する新しいフレームワークである。
Me-Agentは、大規模言語モデル(LLM)を基盤としたモバイルエージェントにおいて、追加のモデル訓練を行うことなく、ユーザーの過去の行動履歴や潜在的な好みを学習してパーソナライズされた操作を実現する新しいフレームワークである。プロンプトレベルでの「ユーザー嗜好学習(UPL)」と、長期記憶やアプリ固有の操作パターンを管理する「階層型嗜好メモリ(HPM)」という2段階の習慣学習アプローチを採用することで、デバイスの計算資源を抑えつつ、曖昧な指示に対してもユーザーごとの最適な意思決定を支援する。独自のベンチマーク「User FingerTip」を用いた検証では、アプリ選択の正確性において既存手法を圧倒する性能を示し、複雑なタスクを扱う「E-dataset」においてもタスク完了率89.3%という極めて高い実用性と汎用性を実証した。
現在の大規模言語モデル(LLM)をベースとしたモバイルエージェントは、複雑なタスクの実行や汎用性の面で大きな進歩を遂げているが、実ユーザーが日常的に利用する上では依然として大きな課題が残されている。既存のエージェントの多くは、ユーザーからの明示的で詳細な指示に従うことには長けているものの、個々のユーザーが持つ潜在的なニーズやパーソナライズされた文脈を考慮できていない。特に、ユーザーの背景情報が欠如している場合や、アプリケーションの利用シーンが動的に変化する状況において、既存の手法には主に3つの限界が存在する。 第一に、自然言語による指示に含まれる曖昧な意図や、暗黙的なユーザーの目的を正確に解釈することが困難である。例えば「音楽をかけて」という指示に対し、ユーザーが普段どのアプリを使い、どのような曲を好むのかという情報がなければ、適切な操作を選択できない。第二に、複数回にわたるインタラクションを通じてユーザーの行動パターンを継続的に学習し、更新していく仕組みが不足している。第三に、パーソナライズされた指示や設定を処理する能力が限られており、ユーザー中心の対話体験を提供できていない。…
本研究では、追加の訓練を行うことなく、2段階の習慣モデリングを通じてユーザーの嗜好に適応する、学習能力と記憶能力を備えたパーソナライズ型モバイルエージェント「Me-Agent」を提案している。このエージェントは、プロンプトレベルとメモリレベルの2つの階層でユーザーの習慣を学習する仕組みを持っている。プロンプトレベルでは、「ユーザー嗜好学習(UPL)」戦略を導入している。これは、パラメータを更新しない手法でありながら、パーソナル報酬モデル(Personal Reward Model)を用いて候補となる応答をユーザーの嗜好との一致度に基づいてランク付けし、パーソナライズされた意思決定を導くものである。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related