Beyond the Labels: Unveiling Text-Dependency in Paralinguistic Speech Recognition Datasets

要約

認知負荷や感情などのパラ言語特性は、音声認識研究において極めて重要な領域としてますます認識されており、CLSE や IEMOCAP などの特殊なデータセットを通じて検査されることがよくあります。
ただし、これらのデータセットの整合性がテキストの依存性に関して精査されることはほとんどありません。
この論文は、そのようなデータセットでトレーニングされた機械学習モデルは単に語彙的特徴を捕捉するのではなく、実際にパラ言語特性を識別することを学習するという一般的な仮定を批判的に評価します。
これらのデータセット内の語彙の重複を調べ、機械学習モデルのパフォーマンスをテストすることで、特性ラベリングにおける重大なテキスト依存性を明らかにします。
私たちの結果は、一部の機械学習モデル、特に HuBERT のような大規模な事前トレーニング済みモデルは、意図したパラ言語特徴ではなく、誤って語彙特性に焦点を当てている可能性があることを示唆しています。
この研究は、研究コミュニティが既存のデータセットと方法論の信頼性を再評価し、機械学習モデルが認識するように設計されているものを真に学習できるようにするための行動喚起として機能します。

要約(オリジナル)

Paralinguistic traits like cognitive load and emotion are increasingly recognized as pivotal areas in speech recognition research, often examined through specialized datasets like CLSE and IEMOCAP. However, the integrity of these datasets is seldom scrutinized for text-dependency. This paper critically evaluates the prevalent assumption that machine learning models trained on such datasets genuinely learn to identify paralinguistic traits, rather than merely capturing lexical features. By examining the lexical overlap in these datasets and testing the performance of machine learning models, we expose significant text-dependency in trait-labeling. Our results suggest that some machine learning models, especially large pre-trained models like HuBERT, might inadvertently focus on lexical characteristics rather than the intended paralinguistic features. The study serves as a call to action for the research community to reevaluate the reliability of existing datasets and methodologies, ensuring that machine learning models genuinely learn what they are designed to recognize.

arxiv情報

著者 Jan Pešán,Santosh Kesiraju,Lukáš Burget,Jan ”Honza” Černocký
発行日 2024-03-12 15:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS, eess.SP パーマリンク