従来の話者照合はユークリッド空間での学習が主流であったが、基本周波数やフォルマント構造といった話者特徴が持つ木構造のような階層的な情報を十分に表現できないという課題があった。本研究では、負の曲率を持ち有限の体積内で指数関数的なデータ配置が可能な双曲空間(ポアンカレ球モデル)を導入し、階層構造を効率的にモデル化するH-Softmaxと、クラス間の分離性を高めるマージン制約を加えたHAM-Softmaxを提案した。実験の結果、VoxCelebやCNCeleb等のデータセットにおいて、従来のSoftmaxやAM-Softmaxと比較して等価誤り率(EER)を大幅に削減することに成功し、特に複雑なクロスドメインデータにおいて高い性能と階層情報の保持能力を示した。
従来の話者照合はユークリッド空間での学習が主流であったが、基本周波数やフォルマント構造といった話者特徴が持つ木構造のような階層的な情報を十分に表現できないという課題があった。本研究では、負の曲率を持ち有限の体積内で指数関数的なデータ配置が可能な双曲空間(ポアンカレ球モデル)を導入し、階層構造を効率的にモデル化するH-Softmaxと、クラス間の分離性を高めるマージン制約を加えたHAM-Softmaxを提案した。実験の結果、VoxCelebやCNCeleb等のデータセットにおいて、従来のSoftmaxやAM-Softmaxと比較して等価誤り率(EER)を大幅に削減することに成功し、特に複雑なクロスドメインデータにおいて高い性能と階層情報の保持能力を示した。
話者照合(SV)は、与えられた音声セグメントが特定の対象話者のものであるかどうかを判断する技術であり、深層学習の発展に伴い、ニューラルネットワークを用いた話者埋め込み学習が主流となっている。これまでの研究では、AM-SoftmaxやAAM-Softmaxといったマージンに基づく損失関数が導入され、クラス内の変動を抑えつつクラス間の距離を広げることで、識別能力の高い埋め込み表現の獲得が試みられてきた。しかし、これらの手法の多くはユークリッド空間を前提としてモデル化されているが、現実世界における話者の特徴は、基本周波数やフォルマント構造、韻律といった要素が複雑に絡み合う木構造のような階層的な情報を含んでいる。ユークリッド空間は平坦な幾何学的性質を持つため、このような指数関数的に広がる階層的なデータ分布を十分に表現する能力が不足しており、話者埋め込みの分離性や汎化性能を制限する要因となっている。 一方で、負の曲率を持つ双曲空間は、幾何学的な特性により、有限の領域内に指数関数的に増加するデータ点を収容できるという特徴を持っている。…
本論文では、双曲空間の幾何学的特性を話者埋め込み学習に統合するために、H-Softmax(Hyperbolic Softmax)およびHAM-Softmax(Hyperbolic Additive Margin Softmax)という2つの新しい損失関数を提案している。H-Softmaxは、話者埋め込みベクトルと話者クラスの中心を双曲空間の一種であるポアンカレ球モデルに投影し、その空間内での双曲距離を類似度の指標として計算することで、階層的な情報を埋め込みに組み込む手法である。これにより、従来のドット積を用いた類似度計算では困難であった、データの階層的な深さや構造的な関係性を反映した学習が可能になる。H-Softmaxは、分類確率とクロスエントロピーを組み合わせることで、ユークリッド空間のSoftmaxを双曲空間へと拡張した形態をとっている。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related