AdaReasonerは、マルチモーダル大規模言語モデル(MLLM)において、ツール使用を特定の行動としてではなく一般的な推論スキルとして学習するモデルファミリーです。大規模なデータパイプライン、強化学習(Tool-GRPO)、適応学習メカニズムを組み合わせることで、未知のツールへの汎化やタスクに応じたツールの自律的な選択・抑制を実現しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related