CREATE は、概念どうしのあいだに「新しくて意味のあるつながり」をどれだけ多様に見つけられるかを、Wikidata 上の経路探索として評価するベンチマークです。 単なる正誤判定ではなく、つながりの強さを測る specificity と、候補どうしの違いを測る diversity を統合した creative utility で採点し、創造性をある程度客観的に比べられる形にしました。 結果として GPT-5 や Gemini-3-pro などの frontier モデルが上位に来る一方、thinking model がトークンを多く使えば必ず有利になるわけではなく、creative prompting の上積みも限定的でした。
大規模言語モデルの創造性を論じるとき、しばしば「面白い文章が書けるか」「変わったアイデアを出せるか」が話題になります。しかし、本当に重要なのは、既知の知識を単に言い換えるのでなく、離れた概念のあいだに意味のある橋を架けられるかです。仮説生成、発想支援、研究アイデアの拡張などで効くのは、この連想的推論です。
提案の核は CREATE という benchmark です。モデルは自然言語クエリを受け取り、出発概念と到達概念のあいだをつなぐ複数の経路を提案します。重要なのは、一つだけ正しい経路を当てることではありません。高品質な経路を複数出し、それらが互いに似すぎていないことまで評価対象にしています。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related