ペルシア語の文化的な「それらしさ」を含む問いでは、多くのモデルが適切な作法を選ぶことはできても、同じ概念に対する明確な違反を退けることが苦手で、もっともらしい文化語彙に引っ張られて肯定してしまう偏りが強く示されました。
近年、ペルシア語の自然言語処理ベンチマークは、翻訳品質や事実検索だけでなく、語用論や丁寧さといった側面にも対象を広げています。ところが論文が問題にするのは、「文化的な事実を覚えていること」と、「暗黙の社会規範を文脈に応じて推論できること」を切り分けて評価する枠組みが十分ではない点です。文化の内側にいる人にとっては自明でも、表層的な語彙や定型表現だけをなぞると誤る種類の判断があり、そこが従来の評価では見えにくいという立て付けです。 動機付けとして示される例が、客に食べ物を勧めると一度や二度は断り、三度目の「本当の勧め」で受け取るという儀礼的なやり取り(taarof)です。このようなやり取りは、単に「丁寧な言い回しを生成できるか」ではなく、「どの発話が本気の勧めで、どの行為が文化的違反か」を状況の流れから見分ける力を要求します。 さらに、迷信や慣習は、社会的作法以上に「経験的根拠が薄いまま文化伝達される信念」を含みやすく、単純な論理演繹で正解に到達しにくいと説明されています。…
本研究の中心提案は、ペルシア語の大規模言語モデルが文化的概念をどの程度扱えるかを診断するためのベンチマークDivanBenchの導入です。焦点は迷信と慣習で、任意性が高く文脈依存で、単純な論理だけでは割り切れない規則をあえて評価対象に据えています。ここで狙っているのは、文化的な語彙やステレオタイプに合わせた「もっともらしい応答」と、状況に応じた「規範の適用」を分離して測ることです。 DivanBenchは81の文化概念をカバーし、合計315問から構成されます。概念の分布は、社会的作法、Nowruzに関する伝統、超自然的存在、災厄避けの儀礼、結婚儀礼、タブー、占いや兆しといった複数領域にまたがります。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related