要約
ソーシャルメディア上でのマルチモーダルコンテンツの急増により、マルチモーダル感情分析が大きな注目を集めています。
ただし、この分野の既存の研究は大規模な教師付きデータに大きく依存しており、収集には時間と労力がかかります。
したがって、少数ショットのマルチモーダル感情分析の課題に対処する必要があります。
この問題に取り組むために、私たちはマルチモーダル確率的融合プロンプト (MultiPoint) と呼ばれる新しい方法を提案します。これは、数ショット シナリオでのマルチモーダル感情検出にさまざまなモダリティからの多様な手がかりを活用します。
具体的には、CDS と呼ばれる一貫して分散されたサンプリング アプローチを導入することから始めます。これにより、少数ショット データセットが完全なデータセットと同じカテゴリ分布を持つことが保証されます。
主にテキスト モダリティに基づくプロンプトを使用する以前のアプローチとは異なり、統合されたマルチモーダル プロンプトを設計して、異なるモダリティ間の不一致を削減し、マルチモーダル デモンストレーションを各マルチモーダル インスタンスのコンテキストに動的に組み込みます。
モデルの堅牢性を強化するために、各入力に対する複数の多様なプロンプトからの出力予測を融合する確率的融合手法を導入します。
6 つのデータセットに対する私たちの広範な実験により、私たちのアプローチの有効性が実証されました。
まず、私たちの方法は、マルチモーダルな少数ショット設定で強力なベースラインを上回ります。
さらに、同じ量のデータ (データセット全体の 1%) の下で、CDS ベースの実験結果は、各クラスの同じ数のインスタンスから構築された以前にサンプリングされたデータセットに基づく実験結果を大幅に上回りました。
要約(オリジナル)
Multimodal sentiment analysis has gained significant attention due to the proliferation of multimodal content on social media. However, existing studies in this area rely heavily on large-scale supervised data, which is time-consuming and labor-intensive to collect. Thus, there is a need to address the challenge of few-shot multimodal sentiment analysis. To tackle this problem, we propose a novel method called Multimodal Probabilistic Fusion Prompts (MultiPoint) that leverages diverse cues from different modalities for multimodal sentiment detection in the few-shot scenario. Specifically, we start by introducing a Consistently Distributed Sampling approach called CDS, which ensures that the few-shot dataset has the same category distribution as the full dataset. Unlike previous approaches primarily using prompts based on the text modality, we design unified multimodal prompts to reduce discrepancies between different modalities and dynamically incorporate multimodal demonstrations into the context of each multimodal instance. To enhance the model’s robustness, we introduce a probabilistic fusion method to fuse output predictions from multiple diverse prompts for each input. Our extensive experiments on six datasets demonstrate the effectiveness of our approach. First, our method outperforms strong baselines in the multimodal few-shot setting. Furthermore, under the same amount of data (1% of the full dataset), our CDS-based experimental results significantly outperform those based on previously sampled datasets constructed from the same number of instances of each class.
arxiv情報
著者 | Xiaocui Yang,Shi Feng,Daling Wang,Pengfei Hong,Soujanya Poria |
発行日 | 2023-08-01 07:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google