Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models

要約

マルチモーダル感情分析は、ユーザーの内面を理解する上で重要な分野である。深層学習の手法は有効であったが、解釈可能性が低いという問題が徐々に注目されてきた。これまでの作品では、アテンションウェイトやベクトル分布を用いて、解釈可能性を持たせることが試みられてきた。しかし、それらの説明は直感的でなく、異なる学習済みモデルの影響を受ける可能性があった。本研究では、非言語モダリティをテキスト記述に変換し、大規模言語モデルを感情予測に用いることで、解釈可能性を提供する新しいアプローチを提案した。これにより、入力テキストから判断する際に、モデルが何に依存しているかを直接解釈する直感的なアプローチを提供し、解釈可能性を大幅に向上させる。具体的には、音声モダリティでは2つの特徴パターンに基づく記述、顔モダリティでは離散的な行動単位に基づく記述に変換しています。2つの感情分析タスクを用いた実験の結果、提案手法は従来の特徴量を用いたベースラインと比較して、感情分析の有効性を維持、あるいは向上させることができ、F1スコアでは2.49%という最高の向上率を示しました。また、マルチモーダル記述は、モダリティを融合する際に、従来の融合手法と同様の特性を持つことが示された。この結果から、提案手法はマルチモーダル感情分析において解釈可能であり、効果的であることが示された。

要約(オリジナル)

Multimodal sentiment analysis is an important area for understanding the user’s internal states. Deep learning methods were effective, but the problem of poor interpretability has gradually gained attention. Previous works have attempted to use attention weights or vector distributions to provide interpretability. However, their explanations were not intuitive and can be influenced by different trained models. This study proposed a novel approach to provide interpretability by converting nonverbal modalities into text descriptions and by using large-scale language models for sentiment predictions. This provides an intuitive approach to directly interpret what models depend on with respect to making decisions from input texts, thus significantly improving interpretability. Specifically, we convert descriptions based on two feature patterns for the audio modality and discrete action units for the facial modality. Experimental results on two sentiment analysis tasks demonstrated that the proposed approach maintained, or even improved effectiveness for sentiment analysis compared to baselines using conventional features, with the highest improvement of 2.49% on the F1 score. The results also showed that multimodal descriptions have similar characteristics on fusing modalities as those of conventional fusion methods. The results demonstrated that the proposed approach is interpretable and effective for multimodal sentiment analysis.

arxiv情報

著者 Sixia Li,Shogo Okada
発行日 2023-05-12 00:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.MM パーマリンク