Exploring Emotion Expression Recognition in Older Adults Interacting with a Virtual Coach

要約

EMPATHIC プロジェクトは、健康な高齢者を関与させて幸福度を向上させ、自立した老化を促進できる感情表現豊かな仮想コーチを設計することを目的としていました。
このシステムの中核的な側面の 1 つは人間の感知機能であり、感情状態を認識してパーソナライズされたエクスペリエンスを提供できるようになります。
このペーパーでは、データ収集、注釈設計、および最初の方法論的アプローチを含む、すべてプロジェクト要件に合わせたバーチャル コーチの感情表現認識モジュールの開発の概要を説明します。
後者では、オーディオからの音声、およびビデオからの顔の表情、視線、頭のダイナミクスなど、この文脈における離散的な感情表現の認識のためのさまざまなモダリティの役割を個別または組み合わせて調査します。
収集されたコーパスにはスペイン、フランス、ノルウェーのユーザーが含まれており、オーディオ チャネルとビデオ チャネルに個別の感情ラベルが付けられて注釈が付けられているため、文化やラベルの種類を超えてパフォーマンスを比較できます。
結果は、検討した感情カテゴリについて調査されたモダリティの情報力を裏付けており、マルチモーダル手法は一般的に他の手法よりも優れています (音声ラベルで約 68%、ビデオラベルで 72 ~ 74% の精度)。
この研究結果は、人間と機械の対話における高齢者に適用される感情認識に関する限られた文献に貢献することが期待されます。

要約(オリジナル)

The EMPATHIC project aimed to design an emotionally expressive virtual coach capable of engaging healthy seniors to improve well-being and promote independent aging. One of the core aspects of the system is its human sensing capabilities, allowing for the perception of emotional states to provide a personalized experience. This paper outlines the development of the emotion expression recognition module of the virtual coach, encompassing data collection, annotation design, and a first methodological approach, all tailored to the project requirements. With the latter, we investigate the role of various modalities, individually and combined, for discrete emotion expression recognition in this context: speech from audio, and facial expressions, gaze, and head dynamics from video. The collected corpus includes users from Spain, France, and Norway, and was annotated separately for the audio and video channels with distinct emotional labels, allowing for a performance comparison across cultures and label types. Results confirm the informative power of the modalities studied for the emotional categories considered, with multimodal methods generally outperforming others (around 68% accuracy with audio labels and 72-74% with video labels). The findings are expected to contribute to the limited literature on emotion recognition applied to older adults in conversational human-machine interaction.

arxiv情報

著者 Cristina Palmero,Mikel deVelasco,Mohamed Amine Hmani,Aymen Mtibaa,Leila Ben Letaifa,Pau Buch-Cardona,Raquel Justo,Terry Amorese,Eduardo González-Fraile,Begoña Fernández-Ruanova,Jofre Tenorio-Laranga,Anna Torp Johansen,Micaela Rodrigues da Silva,Liva Jenny Martinussen,Maria Stylianou Korsnes,Gennaro Cordasco,Anna Esposito,Mounim A. El-Yacoubi,Dijana Petrovska-Delacrétaz,M. Inés Torres,Sergio Escalera
発行日 2023-11-09 18:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG パーマリンク