本研究は、音声理解のための統一フレームワーク「Convolutional Audio Transformer (CAT)」を提案します。マルチレゾリューションブロックにより多様な時間・周波数構造を捉え、外部の事前学習済みエンコーダを用いた表現正則化により学習効率を大幅に向上させました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related