要約
音声の感情認識は、人間とコンピュータの相互作用に極めて重要である。異なる感情を表す時間領域は、音声の異なる部分に局所的に散在する。さらに、重要な情報の時間的スケールは、音声セグメント内およびセグメント間で大きな範囲にわたって変化する可能性がある。この分野では、変換器を用いたモデルが進歩しているが、既存のモデルでは、異なる時間スケールにおける重要な領域を正確に特定することはできなかった。この問題に対処するため、我々は、動的にサンプルをウィンドウに分割することで時間的重要性を活用する新しいアーキテクチャであるDynamic Window transFormer (DWFormer)を提案する。ウィンドウ内では、時間的に重要な情報を局所的にきめ細かく捕捉するための自己アテンション機構が適用される。また、ウィンドウをまたいだ情報の相互作用も考慮され、グローバルなコミュニケーションが実現されます。DWFormerはIEMOCAPとMELDの両方のデータセットで評価されました。実験結果は、提案モデルが従来の最先端手法よりも優れた性能を達成することを示している。
要約(オリジナル)
Speech emotion recognition is crucial to human-computer interaction. The temporal regions that represent different emotions scatter in different parts of the speech locally. Moreover, the temporal scales of important information may vary over a large range within and across speech segments. Although transformer-based models have made progress in this field, the existing models could not precisely locate important regions at different temporal scales. To address the issue, we propose Dynamic Window transFormer (DWFormer), a new architecture that leverages temporal importance by dynamically splitting samples into windows. Self-attention mechanism is applied within windows for capturing temporal important information locally in a fine-grained way. Cross-window information interaction is also taken into account for global communication. DWFormer is evaluated on both the IEMOCAP and the MELD datasets. Experimental results show that the proposed model achieves better performance than the previous state-of-the-art methods.
arxiv情報
著者 | Shuaiqi Chen,Xiaofen Xing,Weibin Zhang,Weidong Chen,Xiangmin Xu |
発行日 | 2023-03-03 03:26:53+00:00 |
arxivサイト | arxiv_id(pdf) |