要約
この論文では、音響およびテキストベースの特徴を使用して音声から感情を分類するためのさまざまなアプローチを研究します。
音声転写に含まれる情報を表現するために BERT を使用して文脈化された単語埋め込みを取得することを提案し、これにより Glove 埋め込みを使用するよりも優れたパフォーマンスが得られることを示します。
また、オーディオとテキストのモダリティを組み合わせるためのさまざまな戦略を提案および比較し、IEMOCAP および MSP-PODCAST データセットで評価します。
音響システムとテキストベースのシステムを融合することは、両方のデータセットで有益であることがわかりましたが、評価された融合アプローチ全体でわずかな違いのみが観察されました。
最後に、IEMOCAP について、相互検証フォールドの定義に使用される基準が結果に大きな影響を与えることを示します。
特に、このデータセットのフォールドを作成する標準的な方法では、テキストベースのシステムのパフォーマンスが非常に楽観的に推定されることになり、これまでの研究の一部が転写を組み込む利点を過大評価している可能性があることを示唆しています。
要約(オリジナル)
In this paper, we study different approaches for classifying emotions from speech using acoustic and text-based features. We propose to obtain contextualized word embeddings with BERT to represent the information contained in speech transcriptions and show that this results in better performance than using Glove embeddings. We also propose and compare different strategies to combine the audio and text modalities, evaluating them on IEMOCAP and MSP-PODCAST datasets. We find that fusing acoustic and text-based systems is beneficial on both datasets, though only subtle differences are observed across the evaluated fusion approaches. Finally, for IEMOCAP, we show the large effect that the criteria used to define the cross-validation folds have on results. In particular, the standard way of creating folds for this dataset results in a highly optimistic estimation of performance for the text-based system, suggesting that some previous works may overestimate the advantage of incorporating transcriptions.
arxiv情報
著者 | Leonardo Pepino,Pablo Riera,Luciana Ferrer,Agustin Gravano |
発行日 | 2024-03-27 14:40:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google