1. 既存のコンテキスト圧縮手法は、静的な要約によってユーザーの意図の変化や詳細な制約を保持できず、複雑な対話において重要な事実を不可逆的に失い、誤った行動を招くという課題がある。 2. 提案手法「U-Fold」は、対話履歴全体を保持しつつ、各ターンでユーザーの意図を考慮した動的な対話要約と、タスクに真に関連するツールログのみを抽出する二段階のモジュールで構成される。 3. 実証実験では、長文コンテキスト設定においてReActに対し71.4%の勝率を記録し、既存の圧縮手法を最大27.0%上回る大幅な性能向上を達成し、情報の完全性と圧縮の両立を証明した。
大規模言語モデル(LLM)をベースとしたエージェントは、ツールを利用してウェブナビゲーションやソフトウェア制御、生活サービスのアシスタントなど、多くの場面で活用されている。これらのエージェントにとって、過去の思考、ツール呼び出し、フィードバックを含む長い対話履歴を推論することは極めて重要な能力である。しかし、履歴全体をそのままモデルに入力するナイーブな手法では、コンテキストの爆発が発生し、トークンの予算を超過したり、モデルの推論能力を圧倒したりするという問題が生じる。この問題を解決するために、過去のやり取りを要約してコンテキストを圧縮する「コンテキストフォールディング」という手法が研究されてきた。 しかし、既存のフォールディング手法は主に単一のクエリや単一の意図を想定したシナリオ向けに設計されており、現実的なユーザー中心の対話においては二つの大きな失敗モードがあることが特定された。第一に、既存手法は後の決定に不可欠なきめ細かな制約や中間的な事実を不可逆的に破棄してしまう。例えば、店舗の営業時間の制約などの詳細が要約の過程で失われ、誤った予約アクションにつながるケースがある。…
本研究では、ユーザー中心のタスクに特化した動的なコンテキストフォールディングフレームワークである「U-Fold」を提案した。U-Foldの最大の特徴は、静的な要約に頼るのではなく、ユーザーとエージェントの完全な対話履歴およびツール呼び出し履歴をバックグラウンドで保持し続ける点にある。その上で、各ターンにおいて、現在のユーザーの意図に合わせたコンパクトな作業用コンテキストを動的に構築する。これにより、情報の冗長性を大幅に削減しながら、ユーザー中心のタスクに不可欠な詳細な制約や中間的な事実を保存することが可能になる。 U-Foldは、二つの軽量なコアコンポーネントによって構成されている。一つ目は「対話要約モジュール」であり、これは対話の進化を追跡し、ユーザーの意図の最新の見解を維持する役割を担う。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related