継続更新

拡散的創造性を超えて:大規模言語モデルにおける創造性の人間中心評価

大規模言語モデルの創造性を評価する従来の指標であるDATは、単語間の意味的距離(新規性)のみを測定するため、ランダムな単語生成が最新モデルを上回るという妥当性の欠如が判明しました。本研究では、人間中心の創造性理論に基づき、新規性と文脈への適切性を両立させる新指標CDATを提案し、SBERTを用いた客観的な評価枠組みを構築することで、モデルの真の創造的能力を可視化しました。検証の結果、高度なモデルほど適切性を優先して新規性が低下する傾向があり、小規模なモデルの方が創造性のバランスに優れていることが明らかになり、学習やアライメントが創造性に与える影響が示唆されました。

拡散的創造性を超えて:大規模言語モデルにおける創造性の人間中心評価 の図解
論文図解

TL;DR(結論)

大規模言語モデルの創造性を評価する従来の指標であるDATは、単語間の意味的距離(新規性)のみを測定するため、ランダムな単語生成が最新モデルを上回るという妥当性の欠如が判明しました。本研究では、人間中心の創造性理論に基づき、新規性と文脈への適切性を両立させる新指標CDATを提案し、SBERTを用いた客観的な評価枠組みを構築することで、モデルの真の創造的能力を可視化しました。検証の結果、高度なモデルほど適切性を優先して新規性が低下する傾向があり、小規模なモデルの方が創造性のバランスに優れていることが明らかになり、学習やアライメントが創造性に与える影響が示唆されました。

なぜこの問題か

大規模言語モデル(LLM)は、物語の執筆、アイデアの生成、執筆支援など、言語的な創造性が求められる多様な文脈で利用される機会が急速に増えています。しかし、これらのタスクにおけるモデルの創造的能力を評価するためのベンチマークや指標については、いまだに共通の合意が得られていないのが現状です。既存の評価手法の多くは、人間の創造性理論に基づいた根拠が乏しく、その結果をどのように解釈すべきかが困難であるという課題を抱えています。特に、人間の発散的思考を測定するために広く用いられているDAT(Divergent Association Task)は、生成された単語間の意味的な距離、すなわち「新規性」のみに焦点を当てています。この指標では、創造性のもう一つの核心的な要素である「適切性」が無視されています。その結果、確率的またはランダムな出力であっても、単語間の距離さえ離れていれば非常に高いスコアを獲得できてしまいます。 これは、創造性と単なるランダム性を混同するリスクを孕んでおり、モデルの真の能力を評価する上での妥当性を著しく制限しています。…

核心:何を提案したのか

本研究では、従来のDATの限界を克服するために、シンプルかつ客観的な評価手法であるCDAT(Conditional Divergent Association Task)を提案しました。CDATは、心理学において広く受け入れられている「創造性とは新規性と適切性の組み合わせである」という定義に基づいています。具体的には、モデルに対して、特定の手がかり語(キュー)に関連しつつも、互いに意味が可能な限り異なる10個の名詞を生成するように求めるタスクです。これにより、モデルが文脈上の制約を守りながら、どれだけ多様な発想を展開できるかを測定します。評価においては、生成された単語同士の平均的な意味距離を「新規性」として算出し、手がかり語と生成単語の平均的な距離を「適切性」として算出します。 この二つの次元を組み合わせることで、単なるノイズや無関係な単語の羅列を創造性から分離することが可能になります。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む