合成コーパスで学習した言語モデルは、差分項標示における「意味的に典型ではない項ほど明示的に標示されやすい」という標示性の方向について、言語横断的に報告されてきた傾向に沿う学習上の好みを安定して示します。
言語モデルが、人間言語に見られる言語類型的な規則性に似た「好み」や「偏り」を示すのかは、近年の研究で繰り返し問われています。とくに合成コーパスを用いる枠組みでは、文法体系や学習条件を統制して並べ、モデルがどの体系を学びやすいのかを比較できます。これまでの焦点は語順や依存関係など、比較的「構造寄り」で、文の適格性が意味に強く依存しない現象に置かれがちでした。ところが自然言語では、形態標示や許可条件が意味特徴に深く結び付く体系も多く、構造中心の検査枠組みがそのまま通用するかは自明ではありません。 差分項標示(DAM)は、この疑問を検査するのに適した題材です。DAMでは、同じ主語・目的語のような項であっても、有生性・定性・代名詞性といった意味的な顕著性に応じて、格標示などの形態的なマークが付いたり付かなかったりします。人間言語のDAMには、少なくとも二つの類型傾向が整理されています。第一に標示性として、頻度が低い(典型でない)意味特徴をもつ配置ほど、明示標示が現れやすいとされます。第二に項の好みとして、言語横断的には主語より目的語を差分的に標示する体系が多く、主語を差分的に標示する体系は相対的に少ないとされます。…
本研究の中心的な提案は、合成コーパス学習の比較枠組みをDAMに拡張し、DAMの規則体系を複数の次元に分解して交差させたうえで、言語モデルがどの傾向を再現し、どの傾向を再現しにくいのかを切り分けて評価することです。具体的には、自然言語テキストから抽出した英語のSVO節を土台にしつつ、DAMを表す特別なマーカートークンを、規則に従って挿入する方法でコーパスを作ります。こうすると、語彙や大枠の構文は揃えたまま、DAM規則だけが異なる「並列な学習環境」を複数用意できます。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related