継続更新

AI GameStore:人間のゲーム100本で測ると、最先端AIはまだ人間の1割未満

AI GameStore は、汎用知能を測るために「人間が実際に作り、遊ぶゲームの宇宙」を使うべきだという立場から、Apple App Store や Steam の人気ゲームを標準化・再構築して評価ベンチマーク化する仕組みです。 著者らは 100 本のゲームを生成・精査し、106 人の人間と最先端 VLM を比較しましたが、最良の GPT-5.2 でも人間中央値を 100 とした尺度で 8.5 にとどまり、しかも人間の 10 倍以上遅くプレイしています。 面白いのは、AI の弱さが単なる操作ミスではなく、記憶、計画、world model learning、社会的推論のような能力が複合的に要求されるゲームで顕著に出ることです。単発ベンチでは見えにくい「統合知能の弱さ」をかなり露骨に出しています。

AI GameStore:人間のゲーム100本で測ると、最先端AIはまだ人間の1割未満 の図解
論文図解

TL;DR(結論)

  • AI GameStore は、汎用知能を測るために「人間が実際に作り、遊ぶゲームの宇宙」を使うべきだという立場から、Apple App Store や Steam の人気ゲームを標準化・再構築して評価ベンチマーク化する仕組みです。
  • 著者らは 100 本のゲームを生成・精査し、106 人の人間と最先端 VLM を比較しましたが、最良の GPT-5.2 でも人間中央値を 100 とした尺度で 8.5 にとどまり、しかも人間の 10 倍以上遅くプレイしています。
  • 面白いのは、AI の弱さが単なる操作ミスではなく、記憶、計画、world model learning、社会的推論のような能力が複合的に要求されるゲームで顕著に出ることです。単発ベンチでは見えにくい「統合知能の弱さ」をかなり露骨に出しています。

なぜこの問題か

従来のベンチマークは、強みが明確な一方で閉じやすいです。数学ベンチは数学だけ、コーディングベンチはコードだけ、視覚ベンチは視覚だけを主に見ます。これで能力の一断面は測れますが、複数能力を統合して未知の課題へ適応する力まで十分に測れるとは限りません。

核心:何を提案したのか

提案の中心は、Multiverse of Human Games という考え方と、それを近似的にサンプリングする AI GameStore の実装です。論文は、人間が設計して人間が楽しむゲーム全体が、汎用知能のかなり豊かな proxy になると主張します。ただしその全空間は無限で扱えないので、まずは App Store や Steam の人気ゲームから候補を集め、標準化された評価用ゲームへ再生成します。

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む