要約
マルチモーダル感情分析とうつ病推定は、マルチモーダルデータを使用して人間の精神状態を予測することを目的とした2つの重要な研究トピックです。
以前の研究は、さまざまなモダリティからの心関連情報を交換および統合するための効果的な融合戦略の開発に焦点を合わせていました。
最近、いくつかのMLPベースの手法が、さまざまなコンピュータービジョンタスクでかなりの成功を収めています。
これに触発されて、この研究では機能混合の観点からマルチモーダルアプローチを探求します。
この目的のために、完全にMLPに基づくマルチモーダル機能処理フレームワークであるCubeMLPを紹介します。
CubeMLPは、3つの独立したMLPユニットで構成され、各ユニットには2つのアフィン変換があります。
CubeMLPは、関連するすべてのモダリティ機能を入力として受け入れ、それらを3つの軸に混合します。
CubeMLPを使用して特性を抽出した後、混合マルチモーダル特徴はタスク予測のために平坦化されます。
私たちの実験は、感情分析データセット:CMU-MOSIとCMU-MOSEI、およびうつ病推定データセット:AVEC2019で実施されます。
結果は、CubeMLPがはるかに低いコンピューティングコストで最先端のパフォーマンスを達成できることを示しています。
要約(オリジナル)
Multimodal sentiment analysis and depression estimation are two important research topics that aim to predict human mental states using multimodal data. Previous research has focused on developing effective fusion strategies for exchanging and integrating mind-related information from different modalities. Some MLP-based techniques have recently achieved considerable success in a variety of computer vision tasks. Inspired by this, we explore multimodal approaches with a feature-mixing perspective in this study. To this end, we introduce CubeMLP, a multimodal feature processing framework based entirely on MLP. CubeMLP consists of three independent MLP units, each of which has two affine transformations. CubeMLP accepts all relevant modality features as input and mixes them across three axes. After extracting the characteristics using CubeMLP, the mixed multimodal features are flattened for task predictions. Our experiments are conducted on sentiment analysis datasets: CMU-MOSI and CMU-MOSEI, and depression estimation dataset: AVEC2019. The results show that CubeMLP can achieve state-of-the-art performance with a much lower computing cost.
arxiv情報
著者 | Hao Sun,Hongyi Wang,Jiaqing Liu,Yen-Wei Chen,Lanfen Lin |
発行日 | 2022-07-28 13:50:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google