AI研究 2026-03-11 タグ: cs.CL

CREATE：LLMの「連想的創造性」を、知識グラフ上の経路探索で測るベンチマーク

CREATE は、概念どうしのあいだに「新しくて意味のあるつながり」をどれだけ多様に見つけられるかを、Wikidata 上の経路探索として評価するベンチマークです。単なる正誤判定ではなく、つながりの強さを測る specificity と、候補どうしの違いを測る diversity を統合した creative utility で採点し、創造性をある程度客観的に比べられる形にしました。結果として GPT-5 や Gemini-3-pro などの frontier モデルが上位に来る一方、thinking model がトークンを多く使えば必ず有利になるわけではなく、creative prompting の上積みも限定的でした。

論文図解

TL;DR（結論）

CREATE は、概念どうしのあいだに「新しくて意味のあるつながり」をどれだけ多様に見つけられるかを、Wikidata 上の経路探索として評価するベンチマークです。
単なる正誤判定ではなく、つながりの強さを測る specificity と、候補どうしの違いを測る diversity を統合した creative utility で採点し、創造性をある程度客観的に比べられる形にしました。
結果として GPT-5 や Gemini-3-pro などの frontier モデルが上位に来る一方、thinking model がトークンを多く使えば必ず有利になるわけではなく、creative prompting の上積みも限定的でした。

なぜこの問題か

大規模言語モデルの創造性を論じるとき、しばしば「面白い文章が書けるか」「変わったアイデアを出せるか」が話題になります。しかし、本当に重要なのは、既知の知識を単に言い換えるのでなく、離れた概念のあいだに意味のある橋を架けられるかです。仮説生成、発想支援、研究アイデアの拡張などで効くのは、この連想的推論です。

核心：何を提案したのか

提案の核は CREATE という benchmark です。モデルは自然言語クエリを受け取り、出発概念と到達概念のあいだをつなぐ複数の経路を提案します。重要なのは、一つだけ正しい経路を当てることではありません。高品質な経路を複数出し、それらが互いに似すぎていないことまで評価対象にしています。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。