AI研究 2026-01-29 タグ: cs.CL

Me-Agent：2段階の習慣学習でスマホ操作をパーソナライズするモバイルエージェント

Me-Agentは、大規模言語モデル（LLM）を基盤としたモバイルエージェントにおいて、追加のモデル訓練を行うことなく、ユーザーの過去の行動履歴や潜在的な好みを学習してパーソナライズされた操作を実現する新しいフレームワークである。

論文図解

TL;DR（結論）

Me-Agentは、大規模言語モデル（LLM）を基盤としたモバイルエージェントにおいて、追加のモデル訓練を行うことなく、ユーザーの過去の行動履歴や潜在的な好みを学習してパーソナライズされた操作を実現する新しいフレームワークである。プロンプトレベルでの「ユーザー嗜好学習（UPL）」と、長期記憶やアプリ固有の操作パターンを管理する「階層型嗜好メモリ（HPM）」という2段階の習慣学習アプローチを採用することで、デバイスの計算資源を抑えつつ、曖昧な指示に対してもユーザーごとの最適な意思決定を支援する。独自のベンチマーク「User FingerTip」を用いた検証では、アプリ選択の正確性において既存手法を圧倒する性能を示し、複雑なタスクを扱う「E-dataset」においてもタスク完了率89.3%という極めて高い実用性と汎用性を実証した。

なぜこの問題か

現在の大規模言語モデル（LLM）をベースとしたモバイルエージェントは、複雑なタスクの実行や汎用性の面で大きな進歩を遂げているが、実ユーザーが日常的に利用する上では依然として大きな課題が残されている。既存のエージェントの多くは、ユーザーからの明示的で詳細な指示に従うことには長けているものの、個々のユーザーが持つ潜在的なニーズやパーソナライズされた文脈を考慮できていない。特に、ユーザーの背景情報が欠如している場合や、アプリケーションの利用シーンが動的に変化する状況において、既存の手法には主に3つの限界が存在する。第一に、自然言語による指示に含まれる曖昧な意図や、暗黙的なユーザーの目的を正確に解釈することが困難である。例えば「音楽をかけて」という指示に対し、ユーザーが普段どのアプリを使い、どのような曲を好むのかという情報がなければ、適切な操作を選択できない。第二に、複数回にわたるインタラクションを通じてユーザーの行動パターンを継続的に学習し、更新していく仕組みが不足している。第三に、パーソナライズされた指示や設定を処理する能力が限られており、ユーザー中心の対話体験を提供できていない。…

核心：何を提案したのか

本研究では、追加の訓練を行うことなく、2段階の習慣モデリングを通じてユーザーの嗜好に適応する、学習能力と記憶能力を備えたパーソナライズ型モバイルエージェント「Me-Agent」を提案している。このエージェントは、プロンプトレベルとメモリレベルの2つの階層でユーザーの習慣を学習する仕組みを持っている。プロンプトレベルでは、「ユーザー嗜好学習（UPL）」戦略を導入している。これは、パラメータを更新しない手法でありながら、パーソナル報酬モデル（Personal Reward Model）を用いて候補となる応答をユーザーの嗜好との一致度に基づいてランク付けし、パーソナライズされた意思決定を導くものである。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。