AI研究 2026-02-25 タグ: cs.AI, cs.CL, cs.LG

Aletheia、自律的にFirstProofに取り組む

Gemini 3 Deep Thinkで動く数学研究エージェントAletheiaは、研究レベルの数学課題集FirstProofの初回チャレンジにおいて、許容された時間内に10問中6問（2、5、7、8、9、10）を自律的に解けたと、専門家の多数評価に基づいて報告されています。

論文図解

TL;DR（結論）

Gemini 3 Deep Thinkで動く数学研究エージェントAletheiaは、研究レベルの数学課題集FirstProofの初回チャレンジにおいて、許容された時間内に10問中6問（2、5、7、8、9、10）を自律的に解けたと、専門家の多数評価に基づいて報告されています。
問題文をFirstProofのLaTeXファイルから改変せず投入し、生成物を人手で直さないまま、事前に固定した「検証・抽出」用の指示文に通してLaTeXの解答稿まで出力させることで、解答生成段階への人間介入を排した運用を採っています。
ただし「自律」や「正しい（小改訂で掲載可能という解釈）」の読み方には幅があり、特に問題8は評価が全会一致ではないため、達成範囲の見え方は評価基準と提出手続き（best-of-2やpreferred solutionの指定）に左右されます。

なぜこの問題か

FirstProofは、現役の数学者の研究の中から自然に生じた研究レベルの数学問題を10問まとめ、当時点のAI能力を測る試みとして提案されたものです。問題は2026年2月5日に公開され、締切は2026年2月13日23:59（PST）とされています。締切を過ぎると解答がインターネット上で公開される運用であるため、提出物が締切前に得られたものかという点が、検証の現場では重要な論点になります。さらにFirstProofの説明では、AIが「自律的に」数学文献に通用する厳密さと作法で証明を出せるかが焦点になっており、人間が数学的アイデアや内容を与えたり、問題の核心を切り分ける手助けをしたりしないことが求められています。ところが、実験的試行として設計されているため、細部のルールが形式ベンチマークほど明確ではないという前提も同時に存在します。たとえば、AIが出した証明に対して人間の査読者が「この技術点を明確にしてほしい」と求め、AIが補足して厳密化する行為が、自律の範囲に入るかどうかは解釈が分かれ得ます。実際、研究レベルの問題では弱点を見抜いて質問するだけでも専門性が要り、その時点で「専門家がループに入っている」と見ることもできます。…

核心：何を提案したのか

本稿の中心は、新しい課題集に対する単純な得点報告というよりも、AletheiaのFirstProofへの取り組みを「自律性の担保」と「評価と手続きの開示」をセットで記録するという報告設計にあります。Abstractでは、Gemini 3 Deep Thinkを基盤にした数学研究エージェントAletheiaが、初回のFirstProofチャレンジで許容時間内に10問中6問（2、5、7、8、9、10）を自律的に解いたとされ、専門家の多数評価によってそのように判定されたと述べています。同時に、問題8だけは専門家評価が全会一致ではなかった点が明記されています。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。