本研究は、低リソース言語であるペルシャ語のことわざ理解を評価するベンチマーク「MasalBench」を提案する。8つの最先端LLMを評価した結果、文脈内でのことわざ識別は高精度だったが、英語の同義ことわざを見つけるタスクでは性能が低下した。これはLLMの文化的知識と類推推論における限界を示唆している。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related