要約
感情 AI は、人間の感情状態を理解するコンピューターの能力です。
既存の研究は有望な進歩を遂げていますが、次の 2 つの制限がまだ解決されていません。 1) 以前の研究は、長い連続ビデオを見落としながら、短い連続ビデオの感情分析に重点を置いていました。
ただし、短い連続ビデオ内の感情は瞬間的な感情のみを反映しており、意図的に誘導または隠蔽されている可能性があります。
対照的に、長い連続ビデオは本物の感情を明らかにすることができます。
2) これまでの研究では、顔、音声、さらには敏感な生体信号 (心電図など) などのさまざまな信号が一般的に利用されていました。
しかし、プライバシーへの要求の高まりにより、機密信号に依存しない感情 AI の開発が重要になってきています。
前述の制限に対処するために、この論文では、アスリートの試合後のインタビューのシーケンスを収集して処理することにより、EALD と呼ばれる長時間連続および非アイデンティティビデオの感情分析用のデータセットを構築します。
各ビデオの全体的な感情状態の注釈を提供することに加えて、各プレーヤーの非顔面ボディランゲージ (NFBL) 注釈も提供します。
NFBL は内なる感情の表現であり、感情状態を理解するためのアイデンティティフリーの手がかりとして役立ちます。
さらに、さらなる研究のためのシンプルだが効果的なベースラインを提供します。
より正確には、感情分析を実行するために、匿名化信号 (視覚、音声、NFBL など) を使用してマルチモーダル大規模言語モデル (MLLM) を評価します。
私たちの実験結果は、次のことを示しています。1) MLLM は、ゼロショット シナリオであっても、教師あり単一モーダル モデルと同等の、さらに優れたパフォーマンスを達成できます。
2) NFBL は、長期にわたる連続的な感情分析における重要な手がかりです。
EALD はオープンソース プラットフォームで利用可能になります。
要約(オリジナル)
Emotion AI is the ability of computers to understand human emotional states. Existing works have achieved promising progress, but two limitations remain to be solved: 1) Previous studies have been more focused on short sequential video emotion analysis while overlooking long sequential video. However, the emotions in short sequential videos only reflect instantaneous emotions, which may be deliberately guided or hidden. In contrast, long sequential videos can reveal authentic emotions; 2) Previous studies commonly utilize various signals such as facial, speech, and even sensitive biological signals (e.g., electrocardiogram). However, due to the increasing demand for privacy, developing Emotion AI without relying on sensitive signals is becoming important. To address the aforementioned limitations, in this paper, we construct a dataset for Emotion Analysis in Long-sequential and De-identity videos called EALD by collecting and processing the sequences of athletes’ post-match interviews. In addition to providing annotations of the overall emotional state of each video, we also provide the Non-Facial Body Language (NFBL) annotations for each player. NFBL is an inner-driven emotional expression and can serve as an identity-free clue to understanding the emotional state. Moreover, we provide a simple but effective baseline for further research. More precisely, we evaluate the Multimodal Large Language Models (MLLMs) with de-identification signals (e.g., visual, speech, and NFBLs) to perform emotion analysis. Our experimental results demonstrate that: 1) MLLMs can achieve comparable, even better performance than the supervised single-modal models, even in a zero-shot scenario; 2) NFBL is an important cue in long sequential emotion analysis. EALD will be available on the open-source platform.
arxiv情報
著者 | Deng Li,Xin Liu,Bohao Xing,Baiqiang Xia,Yuan Zong,Bihan Wen,Heikki Kälviäinen |
発行日 | 2024-05-01 15:25:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google