AI研究 2026-01-29 タグ: eess.AS, cs.AI

SAM Audio Judge：音源分離の知覚的評価のための統合マルチモーダルフレームワーク

従来の音源分離評価で主流だったSDRなどの指標は、正解信号への依存や人間の知覚との乖離という大きな課題を抱えていましたが、本研究では正解信号を必要とせず、人間の知覚と高度に一致する新しい客観的評価指標「SAM Audio Judge（SAJ）」を開発しました。

論文図解

TL;DR（結論）

従来の音源分離評価で主流だったSDRなどの指標は、正解信号への依存や人間の知覚との乖離という大きな課題を抱えていましたが、本研究では正解信号を必要とせず、人間の知覚と高度に一致する新しい客観的評価指標「SAM Audio Judge（SAJ）」を開発しました。 SAJはテキスト、視覚情報、時間的区間という3種類のプロンプト入力を自在に組み合わせることが可能なマルチモーダル設計であり、音声、音楽、一般音響の3つのドメインにおいて、再現率、適合率、忠実度、総合品質という4つの詳細な次元で分離性能を精密に評価することができます。約357.9時間に及ぶ大規模な人間による評価データセットを用いて構築されたこのモデルは、単なる評価ツールにとどまらず、データのフィルタリング、大規模データセットへの擬似ラベル付け、モデル出力の再ランキングといった実用的なアプリケーションにおいても高い有効性を示しています。

なぜこの問題か

音源分離システムの性能を正確に評価することは、長年にわたりオーディオ信号処理の分野において極めて困難な課題とされてきました。伝統的に用いられてきた評価指標は、信号対歪み比（SDR）、尺度不変SDR（SI-SDR）、信号対干渉比（SIR）、信号対人工物比（SAR）といった、波形の歪みに基づく指標が中心でした。これらの指標は、分離された出力信号と参照用の正解信号（クリーン信号）との間のエネルギー差を定量化するものであり、WSJ0-2mixやMUSDB18といった標準的なベンチマークデータセットで広く採用されてきました。しかし、これらの指標には実用上の致命的な欠点がいくつか存在します。まず、現実世界の混合音においては、正解となるクリーンな信号にアクセスできることは極めて稀であり、参照信号を必要とする指標は実際の運用環境では機能しません。また、これらの数値は人間の知覚的な洞察を限定的にしか提供しません。例えば、ほぼ同一のSDR値を持つ2つの出力であっても、人間の耳には劇的に異なって聞こえることがあり、歪みに基づく指標は人間の平均意見スコア（MOS）との相関が低いことが多くの研究で指摘されています。…

核心：何を提案したのか

本研究では、これらの課題を解決するために「SAM Audio Judge（SAJ）」と呼ばれる新しい自動評価フレームワークを提案しました。SAJの核心は、正解信号を必要としない「リファレンスフリー」な客観的指標でありながら、人間の知覚と高度に一致するマルチモーダルな評価を実現している点にあります。このモデルは、単一のスコアを出すだけでなく、分離性能を「再現率（Recall）」、「適合率（Precision）」、「忠実度（Faithfulness）」、「総合品質（Overall）」という4つの詳細な次元で測定します。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。