継続更新

Trajectory2Task:合成されつつも検証可能なデータを用いた、複雑なユーザー意図のための堅牢なツール呼び出しエージェントの学習

現実世界のツール利用エージェントが直面する「曖昧な意図」「変化する意図」「実行不可能な意図」という3つの複雑なシナリオに対処するため、検証可能なデータ生成パイプラインであるTrajectory2Taskが開発されました。

Trajectory2Task:合成されつつも検証可能なデータを用いた、複雑なユーザー意図のための堅牢なツール呼び出しエージェントの学習 の図解
論文図解

TL;DR(結論)

現実世界のツール利用エージェントが直面する「曖昧な意図」「変化する意図」「実行不可能な意図」という3つの複雑なシナリオに対処するため、検証可能なデータ生成パイプラインであるTrajectory2Taskが開発されました。 この手法は、実行可能なツールの軌跡からタスクを逆生成することで、データベースの状態変化に基づいた厳密な検証を可能にし、従来の静的なベンチマークでは困難だった動的な対話シナリオにおける評価と学習を強力に支援します。 最新の大型言語モデルでもこれらの複雑な意図の処理には頻繁に失敗することが判明しましたが、生成されたデータを用いた教師あり微調整により、軽量なモデルでも未知の領域への汎化性能を含む大幅な精度向上が確認されました。

なぜこの問題か

現在、ツール利用エージェントはカスタマーサービスなどの実務ワークフローに導入されつつありますが、既存の研究の多くは、タスクが固定され、明確に定義された理想的な設定に集中しています。しかし、現実のアプリケーションにおけるユーザーの要求は、必要な情報が欠落している「曖昧な意図」、対話の途中で目的が変わる「変化する意図」、あるいはポリシーやシステムの制約により実現できない「実行不可能な意図」といった複雑なパターンを含んでいます。従来のベンチマークであるToolBenchやBFCLなどは、APIの選択や引数の正確性を評価するには有効ですが、これらはターゲットが安定していることを前提とした静的な評価に留まっており、現実世界の変動性に対するエージェントの堅牢性を測るには不十分です。 また、現実的なマルチターンの対話軌跡、特に情報の欠落や意図の変遷、ポリシー違反を含むデータを大規模に収集することは非常に困難です。その結果、既存のエージェントは訓練過程でこれらの複雑な相互作用パターンに十分にさらされておらず、ユーザーが意図を追加・変更した場合や、ツールの出力によって以前の前提が崩れた場合に、計画を柔軟に修正することができません。…

核心:何を提案したのか

本研究では、複雑なユーザーシナリオ下でのツール利用を大規模に調査するための、検証可能なデータ生成パイプライン「Trajectory2Task」を提案しました。このパイプラインの最大の特徴は、従来の「タスクから軌跡を作る」手法とは逆に、「実行可能な軌跡からタスクを要約する」というフォワード・バックワードの合成ループを採用している点にあります。これにより、生成されたすべてのタスクには、必ず実行可能で検証済みの正解軌跡(ゴールデン・ラベル)が付随することになり、データベースの最終状態やユーザーへの応答内容に基づいたクローズドループでの評価と学習が可能になります。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む