A Novel Energy based Model Mechanism for Multi-modal Aspect-Based Sentiment Analysis


マルチモーダル アスペクトベースセンチメント分析 (MABSA) は、最近ますます注目を集めています。
FSUIE などのスパンベースの抽出手法は、入力シーケンスとターゲット ラベルの共同モデリングによりセンチメント分析で優れたパフォーマンスを発揮します。
しかし、これまでの手法には依然として一定の限界があります。 (i) 異なる分析対象 (側面やセンチメント) 間の視覚情報の焦点の違いを無視します。
(ii) ユニモーダル エンコーダの特徴を直接組み合わせるだけでは、モーダル ギャップを排除するには不十分な可能性があり、画像とテキストのペアごとの関連性を取得することが困難になる可能性があります。
(iii) MABSA の既存のスパンベースの方法では、ターゲット スパン境界のペアごとの関連性が無視されます。
これらの制限に対処するために、私たちはマルチモーダル感情分析のための DQPSA と呼ばれる新しいフレームワークを提案します。
具体的には、モデルには、プロンプトを視覚クエリと言語クエリの両方として使用して、プロンプトを認識した視覚情報を抽出し、視覚情報と分析ターゲットの間のペアごとの関連性を強化する、デュアル クエリとしてのプロンプト (PDQ) モジュールが含まれています。
さらに、エネルギーベース モデルの観点から分析対象の境界ペアリングをモデル化するエネルギーベース ペアワイズ エキスパート (EPE) モジュールを導入します。
広く使用されている 3 つのベンチマークの実験では、DQPSA が以前のアプローチを上回り、新たな最先端のパフォーマンスを達成することが実証されました。


Multi-modal aspect-based sentiment analysis (MABSA) has recently attracted increasing attention. The span-based extraction methods, such as FSUIE, demonstrate strong performance in sentiment analysis due to their joint modeling of input sequences and target labels. However, previous methods still have certain limitations: (i) They ignore the difference in the focus of visual information between different analysis targets (aspect or sentiment). (ii) Combining features from uni-modal encoders directly may not be sufficient to eliminate the modal gap and can cause difficulties in capturing the image-text pairwise relevance. (iii) Existing span-based methods for MABSA ignore the pairwise relevance of target span boundaries. To tackle these limitations, we propose a novel framework called DQPSA for multi-modal sentiment analysis. Specifically, our model contains a Prompt as Dual Query (PDQ) module that uses the prompt as both a visual query and a language query to extract prompt-aware visual information and strengthen the pairwise relevance between visual information and the analysis target. Additionally, we introduce an Energy-based Pairwise Expert (EPE) module that models the boundaries pairing of the analysis target from the perspective of an Energy-based Model. This expert predicts aspect or sentiment span based on pairwise stability. Experiments on three widely used benchmarks demonstrate that DQPSA outperforms previous approaches and achieves a new state-of-the-art performance.


著者 Tianshuo Peng,Zuchao Li,Ping Wang,Lefei Zhang,Hai Zhao
発行日 2023-12-13 12:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク