Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers

要約

感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボットの相互作用(HRI)中に個人の影響を理解することが不可欠です。
このペーパーでは、HRIの音声感情認識(SER)のために、VIT(Vision Transformers)とBEIT(Image TransformersのBert Pre-Training)パイプラインの適用を調査します。
焦点は、ベンチマークデータセットでこれらのモデルを微調整し、アンサンブルメソッドを悪用することにより、個々の音声特性のSERモデルを一般化することです。
この目的のために、NAOロボットとの擬似自然主義的な会話をしているさまざまな人間の被験者からオーディオデータを収集しました。
次に、VITおよびBEITベースのモデルを微調整し、参加者から目に見えない音声サンプルでこれらのモデルをテストしました。
結果では、ベンチマークデータセットで微調整されたビジョントランスが、これらのすでに微調整されたモデルまたはアンサンミングVIT/BEITモデルのいずれかを使用すると、スピーチから4つの主要な感情を特定する際に、個人あたりの最高の分類精度が得られることを示します。

要約(オリジナル)

Emotions are an essential element in verbal communication, so understanding individuals’ affect during a human-robot interaction (HRI) becomes imperative. This paper investigates the application of vision transformer models, namely ViT (Vision Transformers) and BEiT (BERT Pre-Training of Image Transformers) pipelines, for Speech Emotion Recognition (SER) in HRI. The focus is to generalize the SER models for individual speech characteristics by fine-tuning these models on benchmark datasets and exploiting ensemble methods. For this purpose, we collected audio data from different human subjects having pseudo-naturalistic conversations with the NAO robot. We then fine-tuned our ViT and BEiT-based models and tested these models on unseen speech samples from the participants. In the results, we show that fine-tuning vision transformers on benchmark datasets and and then using either these already fine-tuned models or ensembling ViT/BEiT models gets us the highest classification accuracies per individual when it comes to identifying four primary emotions from their speech: neutral, happy, sad, and angry, as compared to fine-tuning vanilla-ViTs or BEiTs.

arxiv情報

著者 Ruchik Mishra,Andrew Frye,Madan Mohan Rayguru,Dan O. Popa
発行日 2025-03-17 14:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS パーマリンク