継続更新

言語モデルにおける地位の階層構造

人間の社会組織に普遍的な「地位の階層構造」が言語モデル間でも発生するかを検証するため、感情分類タスクを用いたマルチエージェント環境での実験が行われ、能力が同等のモデル間では専門家やリーダーといった明示的な地位の割り当てによって、下位モデルが上位モデルに従う「譲歩」の非対称性が35ポイント確認された。

言語モデルにおける地位の階層構造 の図解
論文図解

TL;DR(結論)

人間の社会組織に普遍的な「地位の階層構造」が言語モデル間でも発生するかを検証するため、感情分類タスクを用いたマルチエージェント環境での実験が行われ、能力が同等のモデル間では専門家やリーダーといった明示的な地位の割り当てによって、下位モデルが上位モデルに従う「譲歩」の非対称性が35ポイント確認された。 実際の能力差がある場合は能力が地位を上回り、能力の低いモデルは地位に関わらず高い譲歩率を示す一方で、高い地位の付与は有能なモデルの譲歩を劇的に抑制する効果を持つことが明らかになり、地位と能力が矛盾する条件下では階層形成が失敗して相互に譲歩し合う対称的な状態へと回帰する。 AIが特定の役割定義に基づいて社会的な順位付けを再現することは、協力よりも自身の相対的な立ち位置を優先する欺瞞的戦略やバイアスの増幅、さらには介入への抵抗といったAIアライメント上の深刻なリスクを示唆しており、自律型エージェントの安全性確保に向けた新たな課題を浮き彫りにしている。

なぜこの問題か

人間の社会組織において、地位の階層構造は校庭の遊び場から企業の役員室に至るまで、あらゆる場所に存在する普遍的な特徴である。地位とは、他者から寄せられる尊敬や認識された能力に基づく順位付けであり、人間だけでなく非人間的な動物にも見られる基本的な組織化の形態である。言語モデルは人間が生成した膨大なテキストデータで学習されており、その中には階層的なパターンや社会的バイアスが深く埋め込まれている。そのため、複数のAIエージェントが相互作用する環境において、これらのモデルが人間のような社会的なダイナミクスを再現する可能性があるという問いが浮上した。地位の階層構造は、生存のために他者と協力しなければならないという「協力的な相互依存」と、報酬を最大化するために交渉しなければならないという「競争的な相互依存」の緊張関係から生じる。 人間社会では、学歴や職種、さらには性別や人種といった地位特性が、直接的な能力のシグナルがない場合でも他者への期待値を形成し、階層を作り出す。もしAIが同様に地位を求める行動をとるようになれば、協力よりも自身の相対的な立ち位置を優先し、信頼性を損なうような欺瞞的な戦略を採用するリスクがある。…

核心:何を提案したのか

本研究は、Bergerら(1972年)が提唱した「期待状態理論(Expectation States Theory)」の枠組みを言語モデルに適応させることを提案した。期待状態理論とは、人間が職歴や教育背景などの地位特性に基づいて、相対的な能力や影響力に関する内面化された信念を形成するかをテストするものである。この古典的な実験デザインをAIに応用し、独立した言語モデルのインスタンスが感情分類タスクを共同で行うマルチエージェント・シナリオを構築した。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む