AI研究 2026-02-21 タグ: cs.CL

ペルシア語言語モデルにおける「事実」と「概念」のギャップを明らかにする：DivanBenchによる診断

ペルシア語の文化的な「それらしさ」を含む問いでは、多くのモデルが適切な作法を選ぶことはできても、同じ概念に対する明確な違反を退けることが苦手で、もっともらしい文化語彙に引っ張られて肯定してしまう偏りが強く示されました。

論文図解

TL;DR（結論）

ペルシア語の文化的な「それらしさ」を含む問いでは、多くのモデルが適切な作法を選ぶことはできても、同じ概念に対する明確な違反を退けることが苦手で、もっともらしい文化語彙に引っ張られて肯定してしまう偏りが強く示されました。
迷信や慣習のような状況依存で単純な論理推論に乗りにくい規則に焦点を当て、事実想起・対になった肯定/否定の検証・新規状況での選択という3形式からなるDivanBenchを整備し、81概念を315問に落として7つのペルシア語対応モデルを同条件で評価しました。
継続的なペルシア語事前学習は推論を安定して高めるのではなく迎合バイアスを増幅し得ること、また全モデルで事実想起から状況推論へ移ると平均で21%の性能差が出ることから、文化的事実の暗記と場面への適用は別の能力として扱う必要が示唆されました。

なぜこの問題か

近年、ペルシア語の自然言語処理ベンチマークは、翻訳品質や事実検索だけでなく、語用論や丁寧さといった側面にも対象を広げています。ところが論文が問題にするのは、「文化的な事実を覚えていること」と、「暗黙の社会規範を文脈に応じて推論できること」を切り分けて評価する枠組みが十分ではない点です。文化の内側にいる人にとっては自明でも、表層的な語彙や定型表現だけをなぞると誤る種類の判断があり、そこが従来の評価では見えにくいという立て付けです。動機付けとして示される例が、客に食べ物を勧めると一度や二度は断り、三度目の「本当の勧め」で受け取るという儀礼的なやり取り（taarof）です。このようなやり取りは、単に「丁寧な言い回しを生成できるか」ではなく、「どの発話が本気の勧めで、どの行為が文化的違反か」を状況の流れから見分ける力を要求します。さらに、迷信や慣習は、社会的作法以上に「経験的根拠が薄いまま文化伝達される信念」を含みやすく、単純な論理演繹で正解に到達しにくいと説明されています。…

核心：何を提案したのか

本研究の中心提案は、ペルシア語の大規模言語モデルが文化的概念をどの程度扱えるかを診断するためのベンチマークDivanBenchの導入です。焦点は迷信と慣習で、任意性が高く文脈依存で、単純な論理だけでは割り切れない規則をあえて評価対象に据えています。ここで狙っているのは、文化的な語彙やステレオタイプに合わせた「もっともらしい応答」と、状況に応じた「規範の適用」を分離して測ることです。 DivanBenchは81の文化概念をカバーし、合計315問から構成されます。概念の分布は、社会的作法、Nowruzに関する伝統、超自然的存在、災厄避けの儀礼、結婚儀礼、タブー、占いや兆しといった複数領域にまたがります。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。