継続更新

言語モデルは差分項標示(DAM)の類型傾向をどこまで再現するのか:標示性と項の好みのズレ。

合成コーパスで学習した言語モデルは、差分項標示における「意味的に典型ではない項ほど明示的に標示されやすい」という標示性の方向について、言語横断的に報告されてきた傾向に沿う学習上の好みを安定して示します。

言語モデルは差分項標示(DAM)の類型傾向をどこまで再現するのか:標示性と項の好みのズレ。 の図解
論文図解

TL;DR(結論)

  • 合成コーパスで学習した言語モデルは、差分項標示における「意味的に典型ではない項ほど明示的に標示されやすい」という標示性の方向について、言語横断的に報告されてきた傾向に沿う学習上の好みを安定して示します。
  • その一方で、差分項標示が主語よりも目的語を対象にしやすいという「目的語優位」の類型傾向は同じ条件下では強く再現されず、主語を標示する規則と目的語を標示する規則の間で明確な差が出にくいことが示されます。
  • 以上は、差分項標示に関する複数の類型的偏りが単一の要因から一括で生じるのではなく、分布的規則性や形式的な学習可能性で捉えやすい圧力と、談話構造や主題性、伝達上の圧力のように次トークン予測だけでは捉えにくい圧力が、別々に効いている可能性を示唆します。

なぜこの問題か

言語モデルが、人間言語に見られる言語類型的な規則性に似た「好み」や「偏り」を示すのかは、近年の研究で繰り返し問われています。とくに合成コーパスを用いる枠組みでは、文法体系や学習条件を統制して並べ、モデルがどの体系を学びやすいのかを比較できます。これまでの焦点は語順や依存関係など、比較的「構造寄り」で、文の適格性が意味に強く依存しない現象に置かれがちでした。ところが自然言語では、形態標示や許可条件が意味特徴に深く結び付く体系も多く、構造中心の検査枠組みがそのまま通用するかは自明ではありません。 差分項標示(DAM)は、この疑問を検査するのに適した題材です。DAMでは、同じ主語・目的語のような項であっても、有生性・定性・代名詞性といった意味的な顕著性に応じて、格標示などの形態的なマークが付いたり付かなかったりします。人間言語のDAMには、少なくとも二つの類型傾向が整理されています。第一に標示性として、頻度が低い(典型でない)意味特徴をもつ配置ほど、明示標示が現れやすいとされます。第二に項の好みとして、言語横断的には主語より目的語を差分的に標示する体系が多く、主語を差分的に標示する体系は相対的に少ないとされます。…

核心:何を提案したのか

本研究の中心的な提案は、合成コーパス学習の比較枠組みをDAMに拡張し、DAMの規則体系を複数の次元に分解して交差させたうえで、言語モデルがどの傾向を再現し、どの傾向を再現しにくいのかを切り分けて評価することです。具体的には、自然言語テキストから抽出した英語のSVO節を土台にしつつ、DAMを表す特別なマーカートークンを、規則に従って挿入する方法でコーパスを作ります。こうすると、語彙や大枠の構文は揃えたまま、DAM規則だけが異なる「並列な学習環境」を複数用意できます。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む