Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks

要約

人間の感情の理解は、会話テクノロジーを主流にする上で極めて重要です。
私たちは、発話感情の理解を、より現実的な設定である知覚タスクとして捉えます。
状況(言語、人口統計など)が異なると、同じ音声セグメントを不一致の感情として認識する割合が異なります。
EMotion Share トラックの ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) の一環として、多言語話者の豊富なデータセットと、「感情シェア」またはその感情の認識のマルチラベル回帰ターゲットを活用します。
さまざまな基礎モデルのトレーニング スキームが、音声認識を超えたタスク、特に感情理解などの非意味論的な音声タスクに対する有効性を決定することを実証します。
これは、多言語話者、ターゲット ラベルのばらつき、回帰データセットの固有の不均衡により、非常に複雑なタスクです。
私たちの結果は、自己注意ベースの軽量シーケンス モデルを備えた HuBERT-Large が、報告されたベースラインと比較して 4.6% の改善をもたらすことを示しています。

要約(オリジナル)

Human emotion understanding is pivotal in making conversational technology mainstream. We view speech emotion understanding as a perception task which is a more realistic setting. With varying contexts (languages, demographics, etc.) different share of people perceive the same speech segment as a non-unanimous emotion. As part of the ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) in the EMotion Share track, we leverage their rich dataset of multilingual speakers and multi-label regression target of ‘emotion share’ or perception of that emotion. We demonstrate that the training scheme of different foundation models dictates their effectiveness for tasks beyond speech recognition, especially for non-semantic speech tasks like emotion understanding. This is a very complex task due to multilingual speakers, variability in the target labels, and inherent imbalance in the regression dataset. Our results show that HuBERT-Large with a self-attention-based light-weight sequence model provides 4.6% improvement over the reported baseline.

arxiv情報

著者 Payal Mohapatra,Akash Pandey,Yueyuan Sui,Qi Zhu
発行日 2023-08-30 16:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク