音声編集の検出と改ざん箇所の特定を統合する事前知識強化型オーディオLLM
音声の一部を削除・挿入・置換する巧妙な編集を検出するため、大規模言語モデル(LLM)を活用して論理的な改ざんを施した高品質な二言語データセット「AiEdit」を構築しました。 このデータセットを基に、音声編集の検出と改ざん箇所の特定を「音声応答タスク」として統合し、単語レベルの音響的先験情報と一貫性を捉える損失関数を導入した新フレームワーク「PELM」を開発しました。 検証の結果、PELMは従来のオーディオLLMが陥りやすい誤検知や意味内容への偏重を克服し、既存手法を大幅に上回る精度で、継ぎ目のない高度な音声改ざんを識別・特定することに成功しました。