End-to-end Semantic-centric Video-based Multimodal Affective Computing

要約

汎用人工知能 (AGI) への道において、人間の愛情を理解することは、機械の認識能力を高めるために不可欠です。
より官能的な人間と AI のインタラクションを実現するために、人間の音声ビデオにおけるマルチモーダル アフェクティブ コンピューティング (MAC) がますます注目を集めています。
しかし、これまでの手法は主にマルチモーダル融合アルゴリズムの設計に特化しており、2 つの問題に悩まされていました。それは、多様な前処理操作によって引き起こされる意味論的な不均衡と、マルチモーダルのグラウンド トゥルースと比較して、異なるモダリティに含まれる一貫性のない愛情コンテンツによって引き起こされる意味論的な不一致です。
さらに、手動の特徴抽出プログラムを使用すると、複数の MAC ダウンストリーム タスクのエンドツーエンド パイプラインの構築に失敗します。
上記の課題に対処するために、人間の発話ビデオに対するマルチモーダルなセマンティック中心の愛情を計算するための SemanticMAC という名前の新しいエンドツーエンド フレームワークを提案します。
まず、マルチモーダルデータの前処理で事前トレーニング済みの Transformer モデルを使用し、単峰性の感情情報をキャプチャするための Affective Perceiver モジュールを設計します。
さらに、ゲート特徴相互作用、マルチタスク擬似ラベル生成、サンプル内/サンプル間対比学習を含む 3 つの方法でマルチモーダル表現学習を統合するセマンティック中心のアプローチを提案します。
最後に、SemanticMAC は、セマンティック中心のラベルのガイダンスで、特定のセマンティック表現と共有セマンティック表現を効果的に学習します。
広範な実験結果は、私たちのアプローチが 4 つの MAC ダウンストリーム タスクにおける 7 つの公開データセットに対する最先端の手法を上回っていることを示しています。

要約(オリジナル)

In the pathway toward Artificial General Intelligence (AGI), understanding human’s affection is essential to enhance machine’s cognition abilities. For achieving more sensual human-AI interaction, Multimodal Affective Computing (MAC) in human-spoken videos has attracted increasing attention. However, previous methods are mainly devoted to designing multimodal fusion algorithms, suffering from two issues: semantic imbalance caused by diverse pre-processing operations and semantic mismatch raised by inconsistent affection content contained in different modalities comparing with the multimodal ground truth. Besides, the usage of manual features extractors make they fail in building end-to-end pipeline for multiple MAC downstream tasks. To address above challenges, we propose a novel end-to-end framework named SemanticMAC to compute multimodal semantic-centric affection for human-spoken videos. We firstly employ pre-trained Transformer model in multimodal data pre-processing and design Affective Perceiver module to capture unimodal affective information. Moreover, we present a semantic-centric approach to unify multimodal representation learning in three ways, including gated feature interaction, multi-task pseudo label generation, and intra-/inter-sample contrastive learning. Finally, SemanticMAC effectively learn specific- and shared-semantic representations in the guidance of semantic-centric labels. Extensive experimental results demonstrate that our approach surpass the state-of-the-art methods on 7 public datasets in four MAC downstream tasks.

arxiv情報

著者 Ronghao Lin,Ying Zeng,Sijie Mai,Haifeng Hu
発行日 2024-08-14 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク