TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

要約

最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上しています。
マルチモーダル、マルチチャネルの生理学的信号の利用により、それらの相補性により、感情認識システムのパフォーマンスが大幅に向上しました。
しかし、さまざまなモダリティからの感情関連の意味情報を効果的に統合し、モーダル間の依存関係を把握することは、依然として困難な課題です。
既存のマルチモーダル融合手法の多くは、異なるモダリティからのマルチチャネル信号のトークン間またはチャネル間の相関を無視するため、モデルの分類能力がある程度制限されます。
この論文では、チャネルレベルとトークンレベルのクロスモーダル相互作用を統合するマルチモーダル融合の包括的な観点を提案します。
具体的には、Token-chAnnel COMPound (TACO) Cross Attendance と呼ばれる統合クロス アテンション モジュールを導入して、モダリティ間のチャネル レベルとトークン レベルの依存関係を同時にモデル化するマルチモーダル フュージョンを実行します。
さらに、EEG信号チャネルの空間分布に関する情報を保存する2D位置エンコード法を提案し、融合モジュールの前に2つのトランスエンコーダを使用して、EEG信号と末梢生理学的信号からそれぞれ長期の時間依存性をキャプチャします。

感情データセット DEAP と Dreamer に対する被験者に依存しない実験により、提案されたモデルが最先端のパフォーマンスを達成することが実証されました。

要約(オリジナル)

Recently, emotion recognition based on physiological signals has emerged as a field with intensive research. The utilization of multi-modal, multi-channel physiological signals has significantly improved the performance of emotion recognition systems, due to their complementarity. However, effectively integrating emotion-related semantic information from different modalities and capturing inter-modal dependencies remains a challenging issue. Many existing multimodal fusion methods ignore either token-to-token or channel-to-channel correlations of multichannel signals from different modalities, which limits the classification capability of the models to some extent. In this paper, we propose a comprehensive perspective of multimodal fusion that integrates channel-level and token-level cross-modal interactions. Specifically, we introduce a unified cross attention module called Token-chAnnel COmpound (TACO) Cross Attention to perform multimodal fusion, which simultaneously models channel-level and token-level dependencies between modalities. Additionally, we propose a 2D position encoding method to preserve information about the spatial distribution of EEG signal channels, then we use two transformer encoders ahead of the fusion module to capture long-term temporal dependencies from the EEG signal and the peripheral physiological signal, respectively. Subject-independent experiments on emotional dataset DEAP and Dreamer demonstrate that the proposed model achieves state-of-the-art performance.

arxiv情報

著者 Xinda Li
発行日 2023-06-23 16:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS パーマリンク