大規模言語モデルの会話データ分析において、会話を埋め込み、クラスタリングし、その要約を公開する際のリスクを測定する手法「CanaryBench」が提案された。既知の秘密文字列(カナリア)を含む合成データを生成・分析することで、要約文への個人識別情報の漏洩を定量的に評価する。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related