Gemini 3 Deep Thinkで動く数学研究エージェントAletheiaは、研究レベルの数学課題集FirstProofの初回チャレンジにおいて、許容された時間内に10問中6問(2、5、7、8、9、10)を自律的に解けたと、専門家の多数評価に基づいて報告されています。
FirstProofは、現役の数学者の研究の中から自然に生じた研究レベルの数学問題を10問まとめ、当時点のAI能力を測る試みとして提案されたものです。問題は2026年2月5日に公開され、締切は2026年2月13日23:59(PST)とされています。締切を過ぎると解答がインターネット上で公開される運用であるため、提出物が締切前に得られたものかという点が、検証の現場では重要な論点になります。さらにFirstProofの説明では、AIが「自律的に」数学文献に通用する厳密さと作法で証明を出せるかが焦点になっており、人間が数学的アイデアや内容を与えたり、問題の核心を切り分ける手助けをしたりしないことが求められています。ところが、実験的試行として設計されているため、細部のルールが形式ベンチマークほど明確ではないという前提も同時に存在します。たとえば、AIが出した証明に対して人間の査読者が「この技術点を明確にしてほしい」と求め、AIが補足して厳密化する行為が、自律の範囲に入るかどうかは解釈が分かれ得ます。実際、研究レベルの問題では弱点を見抜いて質問するだけでも専門性が要り、その時点で「専門家がループに入っている」と見ることもできます。…
本稿の中心は、新しい課題集に対する単純な得点報告というよりも、AletheiaのFirstProofへの取り組みを「自律性の担保」と「評価と手続きの開示」をセットで記録するという報告設計にあります。Abstractでは、Gemini 3 Deep Thinkを基盤にした数学研究エージェントAletheiaが、初回のFirstProofチャレンジで許容時間内に10問中6問(2、5、7、8、9、10)を自律的に解いたとされ、専門家の多数評価によってそのように判定されたと述べています。同時に、問題8だけは専門家評価が全会一致ではなかった点が明記されています。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related