継続更新

AdaReasoner:反復的な視覚的推論のための動的なツールのオーケストレーション

AdaReasonerは、マルチモーダル大規模言語モデル(MLLM)において、ツール利用を特定のタスクの手順としてではなく、文脈に応じて「いつ、何を、どう使うか」を判断する汎用的な推論スキルとして習得させる新しいモデルファミリーである。

AdaReasoner:反復的な視覚的推論のための動的なツールのオーケストレーション の図解
論文図解

TL;DR(結論)

AdaReasonerは、マルチモーダル大規模言語モデル(MLLM)において、ツール利用を特定のタスクの手順としてではなく、文脈に応じて「いつ、何を、どう使うか」を判断する汎用的な推論スキルとして習得させる新しいモデルファミリーである。高品質な多段階対話データ生成、長期的な戦略計画を最適化するTool-GRPOアルゴリズム、およびツールの識別子をランダム化して意味的理解を促す適応的学習メカニズム(ADL)を導入することで、未知のツールや複雑なタスクへの高い適応能力を実現している。 検証の結果、7Bクラスのベースモデルの性能を平均で24.9%向上させ、特に視覚空間計画(VSP)やジグソーパズル(Jigsaw)といった高度な構造化推論が必要なベンチマークにおいて、GPT-5やClaude Sonnet 4といった最新の商用プロプライエタリモデルを凌駕する性能を達成した。 本手法は、モデルがツールの名前を暗記するのではなく、提供された説明文からその機能を動的に推論して計画に組み込む能力を育む。これにより、推論時に初めて提示された未知のツールも自律的に活用できるようになり、モデルの規模による制限をツールのオーケストレーションによって補完できることを証明した。

なぜこの問題か

人間は、自分自身の直接的な認知能力を超える複雑な問題に直面した際、外部のツールに頼ることで解決を図る。この考え方は、マルチモーダル大規模言語モデル(MLLM)の視覚的推論能力を向上させるための有望なパラダイムとして注目されてきた。モデルが知覚や中間計算を外部ツールに委ねることで、非常に細かい視覚的認識や、正確な中間検証と長期的な計画が必要となる多段階の推論をより効果的に処理できるようになるからである。しかし、現在のモデルは人間のように「いつツールを使うべきか」「どのツールを選択すべきか」を柔軟に判断することに苦労している。 初期の教師あり微調整(SFT)やプロンプトベースの手法は、複数のツールの使用を試みてはいるものの、自律的で適応的な計画ではなく、あらかじめ定義された固定的な呼び出しパターンに大きく依存していた。また、近年の強化学習を用いた手法も、特定のツールの軌跡や固定された相互作用ループに制約される傾向がある。その結果、既存の手法には、多様なツールをタスクに応じて柔軟に計画・調整する能力が欠けているという重大なギャップが存在する。…

核心:何を提案したのか

本論文では、固定的な単一ツールのパラダイムや汎用性の低さを克服するために設計された、ツール認識型推論モデル「AdaReasoner」を提案している。このフレームワークは、主に3つの重要な技術的革新によって構成されている。 第一に、堅牢な基礎を築くために、高品質な多段階の推論軌跡を自動的に合成する新しいデータキュレーションパイプラインを導入した。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む