論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新

相反する目的に対する報酬なしアライメント

大規模言語モデルを「安全にしつつ、役にも立つ」ように整えるには、結局どこで折り合いをつけるべき? 実はその折り合いは、目的を足し算した瞬間に崩れやすい——学習が不安定になり、トレードオフも悪化しうる。 この記事では、報酬モデルなしで“衝突する目的”をさばく提案「RACO」が何を変えるのかを、筋道立てて追いかけます。

要約

大規模言語モデルを「安全にしつつ、役にも立つ」ように整えるには、結局どこで折り合いをつけるべき? 実はその折り合いは、目的を足し算した瞬間に崩れやすい——学習が不安定になり、トレードオフも悪化しうる。 この記事では、報酬モデルなしで“衝突する目的”をさばく提案「RACO」が何を変えるのかを、筋道立てて追いかけます。


全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

Related

次に読む