AI研究 2026-02-22 タグ: cs.CL, cs.HC

Webエージェントにおける異なる人間のインタラクションをモデル化する

自律的に動くWebエージェントでも実行途中に人が誤り修正や好みの反映のために介入するため、介入が起きるタイミングを見越して振る舞いを調整できるかどうかが協調体験を左右します。 / 400件の実ユーザ軌跡（人とエージェントの行動が4,200件超で交互に記録）を集め、介入の仕方を4つの型に整理したうえで、スクリーンショットとアクセシビリティツリー、履歴、提案行動から次の介入有無を逐次予測するモデルを教師ありで学習します。 / 介入予測はベースの言語モデルより61.4〜63.4%改善し、さらに予測を組み込んだ実運用のWebエージェントはユーザ評価の有用性が26.5%増加しており、介入を構造化して扱うことが適応的な協調につながります。

論文図解

TL;DR（結論）

自律的に動くWebエージェントでも実行途中に人が誤り修正や好みの反映のために介入するため、介入が起きるタイミングを見越して振る舞いを調整できるかどうかが協調体験を左右します。
400件の実ユーザ軌跡（人とエージェントの行動が4,200件超で交互に記録）を集め、介入の仕方を4つの型に整理したうえで、スクリーンショットとアクセシビリティツリー、履歴、提案行動から次の介入有無を逐次予測するモデルを教師ありで学習します。
介入予測はベースの言語モデルより61.4〜63.4%改善し、さらに予測を組み込んだ実運用のWebエージェントはユーザ評価の有用性が26.5%増加しており、介入を構造化して扱うことが適応的な協調につながります。

なぜこの問題か

自律的にWebを操作するエージェントは進歩していますが、タスクの途中で人が関与して、好みを具体化したり、誤った解釈を修正したりする必要が残るとされています。ところが現状のエージェント的システムは、人が「いつ」「なぜ」介入するかを原理的に理解できていないため、重要な判断点を通過した後に誤りが発覚したり、逆に不要な確認を頻繁に挟んで作業の流れを損ねたりしやすいです。結果として、利用者は実行中ずっと監視して止める準備をすることになり、監督の負担が重くなります。本研究が焦点を当てるのは、介入は例外ではなく協調の一部であり、介入のタイミングと強さが人とエージェントの分業を決めている点です。本文では、介入の背景に「誤りの訂正」「好みや要件のすり合わせ」「複雑な環境での補助的な引き継ぎ」という繰り返し現れる需要があると整理されています。介入は追加質問への回答だけではなく、エージェントを一時停止して人が数ステップだけ修正し、再開して制御を戻すことや、最後まで人が引き取って完了させることなど、幅広い形で起こります。このため「完全自律を最大化する」だけでは、協調の質を上げる指針になりにくいです。…

核心：何を提案したのか

本研究の提案の中心は、協調的なWebナビゲーションにおける「人間の介入」を、実行過程の逐次予測タスクとして定式化し、データセットと学習済みモデル、そして実運用エージェントへの組み込みまでを一連で示すことです。まず、実ユーザの協調軌跡を集めたCowCorpusを収集しており、400件のWebナビゲーション軌跡に、4,200件超の人間行動とエージェント行動が交互に記録されています。さらに本文では、内訳としてエージェントの行動ステップが2,748、人の行動ステップが1,476であること、そして一時停止・再開・上書きといった介入点がステップ単位で注釈されていることが述べられています。次に、ユーザがどのように介入するかには一貫した型があるとして、4つの相互作用パターンを同定します。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。