要約
感情分析は、さまざまなデータモダリティ(テキスト、画像など)を活用することで急速に進歩しています。
しかし、これまでの作品のほとんどは表面的な情報に依存しており、文脈に沿った世界の知識 (例: 特定の画像とテキストのペアから派生した、しかしそれを超えた背景情報) の組み込みを無視していたため、より優れたマルチモーダルな感情分析を達成する能力が制限されていました。
この論文では、強化されたマルチモーダル感情分析のために、大規模ビジョン言語モデル (LVLM) から誘導される文脈世界知識を活用するように設計された、WisdoM という名前のプラグイン フレームワークを提案しました。
WisdoM は LVLM を利用して画像と対応する文章の両方を包括的に分析し、同時に適切なコンテキストを生成します。
コンテキスト内のノイズを軽減するために、トレーニング不要のコンテキスト融合メカニズムも導入しています。
マルチモーダル感情分析タスクのさまざまな粒度にわたる実験結果は、私たちのアプローチがいくつかの最先端の方法よりも大幅に改善されている (5 つの高度な方法の中で平均 +1.89 F1 スコアをもたらす) ことを一貫して示しています。
コードが公開されます。
要約(オリジナル)
Sentiment analysis is rapidly advancing by utilizing various data modalities (e.g., text, image). However, most previous works relied on superficial information, neglecting the incorporation of contextual world knowledge (e.g., background information derived from but beyond the given image and text pairs) and thereby restricting their ability to achieve better multimodal sentiment analysis. In this paper, we proposed a plug-in framework named WisdoM, designed to leverage contextual world knowledge induced from the large vision-language models (LVLMs) for enhanced multimodal sentiment analysis. WisdoM utilizes a LVLM to comprehensively analyze both images and corresponding sentences, simultaneously generating pertinent context. To reduce the noise in the context, we also introduce a training-free Contextual Fusion mechanism. Experimental results across diverse granularities of multimodal sentiment analysis tasks consistently demonstrate that our approach has substantial improvements (brings an average +1.89 F1 score among five advanced methods) over several state-of-the-art methods. Code will be released.
arxiv情報
著者 | Wenbin Wang,Liang Ding,Li Shen,Yong Luo,Han Hu,Dacheng Tao |
発行日 | 2024-01-12 16:08:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google