要約
主に、暗黙的なセマンティック モデリングにより、自己教師あり学習 (SSL) 手法は、音声感情認識 (SER) システムにおける価数認識のパフォーマンスを大幅に向上させました。
ただし、サイズが大きいため、実際の実装が妨げられる場合があります。
この研究では、HuBERT を SSL モデルの例として取り上げ、SER に対するその各レイヤーの関連性を分析します。
浅い層は覚醒認識にとってより重要であり、より深い層は価性にとってより重要であることを示します。
この観察は、抽出されたフレームワークには大規模な SSL 教師の深さが欠けているため、正確な価数認識のための追加のテキスト情報の重要性を動機付けています。
したがって、私たちは、大規模な SSL モデルのトレーニング可能なパラメーターの約 20% しか持たないにもかかわらず、MSP ポッドキャスト上の 3 つの感情の次元 (覚醒、価度、優位性) にわたって同等のパフォーマンスを達成する、音声とテキストを抽出した SSL フレームワークを提案します。
v1.10 データセット。
要約(オリジナル)
In large part due to their implicit semantic modeling, self-supervised learning (SSL) methods have significantly increased the performance of valence recognition in speech emotion recognition (SER) systems. Yet, their large size may often hinder practical implementations. In this work, we take HuBERT as an example of an SSL model and analyze the relevance of each of its layers for SER. We show that shallow layers are more important for arousal recognition while deeper layers are more important for valence. This observation motivates the importance of additional textual information for accurate valence recognition, as the distilled framework lacks the depth of its large-scale SSL teacher. Thus, we propose an audio-textual distilled SSL framework that, while having only ~20% of the trainable parameters of a large SSL model, achieves on par performance across the three emotion dimensions (arousal, valence, dominance) on the MSP-Podcast v1.10 dataset.
arxiv情報
著者 | Danilo de Oliveira,Navin Raj Prabhu,Timo Gerkmann |
発行日 | 2023-05-30 16:29:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google