言語モデルが事前学習済みの知識に頼るのではなく、与えられた複雑な文脈から未知の知識をその場で学び取り、課題を解決する能力を「コンテキスト学習」と定義し、これを評価するための新たなベンチマークであるCL-benchが提案されました。
言語モデルが事前学習済みの知識に頼るのではなく、与えられた複雑な文脈から未知の知識をその場で学び取り、課題を解決する能力を「コンテキスト学習」と定義し、これを評価するための新たなベンチマークであるCL-benchが提案されました。 このベンチマークは、専門家によって作成された500個の複雑な文脈、1,899個のタスク、および31,607個の評価基準で構成されており、既存の学習データには含まれない架空の法律や最新の技術仕様、実験データなどが含まれています。 最新の言語モデル10種類を評価した結果、平均正答率はわずか17.2%にとどまり、最高性能のモデルであるGPT-5.1でも23.7%という低い数値を示したことから、現在のモデルにとって実世界の複雑な文脈からの学習が大きな課題であることが明らかになりました。
現在の言語モデルは、事前学習を通じて蓄積された膨大な知識を活用し、数学の問題解決やプログラミング、専門的な試験などで優れた成果を収めています。しかし、現実世界の業務や課題は、モデルが学習時に遭遇したことのない固有の状況や、特定の文脈に強く依存していることが少なくありません。例えば、企業独自の内部文書や、リアルタイムで更新される製品マニュアル、あるいは特定の実験から得られた未発表のデータに基づいて判断を下す能力が求められます。人間はこのような新しい情報を文脈から自然に学び取り、即座に課題解決に役立てることができますが、言語モデルにおいてはこの能力が十分に評価されてきませんでした。 これまでの研究では、プロンプトエンジニアリングやインコンテキストラーニング(ICL)といった手法が注目されてきましたが、これらは主にモデルが既に持っている知識を引き出すことや、少数の例示からタスクの形式を模倣することに重点を置いています。一方で、現実の複雑なタスクを遂行するためには、事前学習には含まれていない新しい知識体系や規則、手順を文脈から深く理解し、それを応用する能力が不可欠です。…
本研究では、言語モデルが複雑な文脈から新しい知識を学び、それを活用してタスクを解決する能力を体系的に評価するためのベンチマークとして「CL-bench」を提案しました。このベンチマークは、500個の複雑な文脈、1,899個のタスク、そして31,607個という膨大な数の検証用評価基準(ルーブリック)で構成されています。これらはすべて、各分野の経験豊富な専門家によって手作業で作成されており、1つの文脈とそれに関連するタスクを構築するために、平均して約20時間の専門的な労力が費やされています。CL-benchの最大の特徴は、モデルが事前学習で得た知識だけでは解決できないように設計されている点にあります。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related