Leveraging TCN and Transformer for effective visual-audio fusion in continuous emotion recognition

要約

タイトル:継続的な感情認識における効果的な視聴覚融合のためのTCNとTransformerの活用

要約:
– 人間の感情認識は、人間-コンピュータインタラクションにおいて重要な役割を果たす。
– この論文では、Affective Behavior Analysis in-the-wild(ABAW)の第5回ワークショップおよびコンペティションのValence-Arousal(VA)推定チャレンジ、Expression(Expr)分類チャレンジ、およびAction Unit(AU)検出チャレンジに対するアプローチを提案する。
– 具体的には、Temporal Convolutional Networks(TCN)とTransformerを活用した新しいマルチモーダル融合モデルを提案し、視覚と音声情報を効果的に統合することで、感情認識の精度を改善することを目的とする。
– ベースラインを上回り、Expression Classificationチャレンジで第3位にランクインする成功を収めた。

要約:
– 感情認識において、視覚と音声情報を統合することがより正確な認識につながる。
– 新しいマルチモーダル融合モデルが、TCNとTransformerを利用して、感情認識のパフォーマンスを高め、ABAWのコンペティションで成功を収めた。
– このアプローチは、人間-コンピュータインタラクションにおいて有用である。

要約(オリジナル)

Human emotion recognition plays an important role in human-computer interaction. In this paper, we present our approach to the Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, and Action Unit (AU) Detection Challenge of the 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Specifically, we propose a novel multi-modal fusion model that leverages Temporal Convolutional Networks (TCN) and Transformer to enhance the performance of continuous emotion recognition. Our model aims to effectively integrate visual and audio information for improved accuracy in recognizing emotions. Our model outperforms the baseline and ranks 3 in the Expression Classification challenge.

arxiv情報

著者 Weiwei Zhou,Jiada Lu,Zhaolong Xiong,Weifeng Wang
発行日 2023-04-17 11:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク