AI研究 2026-02-01 タグ: cs.CL

ASTRA：エージェント的軌跡と強化学習アリーナの自動合成

ASTRAは、ツール利用エージェントの訓練を完全に自動化するエンドツーエンドのフレームワークであり、大規模なデータ合成と検証可能な強化学習を統合することで、従来の手動介入や不確実なシミュレーション環境への依存を排除している。

論文図解

TL;DR（結論）

ASTRAは、ツール利用エージェントの訓練を完全に自動化するエンドツーエンドのフレームワークであり、大規模なデータ合成と検証可能な強化学習を統合することで、従来の手動介入や不確実なシミュレーション環境への依存を排除している。この手法は、ツール呼び出しグラフの静的トポロジーを利用した教師あり微調整（SFT）用の軌跡合成と、人間の意味的推論の構成的トポロジーをコード実行可能な環境に変換する強化学習（RL）用の環境合成という2つの相補的な要素で構成される。複数のベンチマークにおいて、ASTRAで訓練されたモデルは同規模のモデルの中で最高水準の性能を達成し、クローズドソースのシステムに匹敵する能力を示しながら、推論能力を維持しつつタスク完了率と対話効率の最適化を実現している。

なぜこの問題か

大規模言語モデル（LLM）を外部ツールやAPIと連携させて多段階の意思決定を行うエージェントとして活用する試みが進んでいるが、堅牢なツール利用エージェントを訓練することは依然として困難な課題である。既存の手法にはいくつかの根本的な限界が存在しており、その一つはデータ構築や検証のプロセスにおいて依然として人間による介入が必要とされる点である。また、多くの手法がLLMによるシミュレーション環境に依存しており、ツールの実行結果や状態遷移、フィードバックが明示的なルールや実行可能なバックエンドではなく、言語モデルによって生成されているため、検証可能性が低いという問題がある。このような検証可能性の欠如は、決定論的な遷移と信頼性の高い報酬信号が不可欠な、長期的なスパンでのマルチターン・オンライン強化学習の安定性を根本的に制限している。さらに、既存のアプローチの多くは教師あり微調整（SFT）または強化学習（RL）のいずれか一方の訓練体制にのみ焦点を当てており、両者を効果的に統合できていない。…

核心：何を提案したのか

本研究では、スケーラブルなデータ合成と検証可能なマルチターン・オンライン強化学習を通じて、ツール拡張型言語モデルエージェントを訓練するための完全自動化エンドツーエンドフレームワーク「ASTRA」を提案している。ASTRAは、データ構築から検証に至るまでの全工程において人間の介入を排除しており、オープンソースとして公開されている。このフレームワークは、二つの相補的なコンポーネントを統合している点が特徴である。第一のコンポーネントは、ツール呼び出しグラフの静的トポロジーを活用した軌跡合成パイプラインであり、実際のMCP（Model Context Protocol）サーバーに基づいた多様なマルチターン軌跡を構築し、それらを自動的にスコアリングすることで高品質なSFTを可能にする。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。