要約
既存の研究によって達成された賞賛に値する成果にもかかわらず、一般的なマルチモーダル皮肉検出研究は、視覚情報よりもテキストコンテンツに依存しています。
テキストの単語とラベルの間に偽の相関関係が必然的に誘発され、それによってモデルの汎化能力が大幅に妨げられます。
この問題に対処するために、分布外 (OOD) マルチモーダル皮肉検出タスクを定義します。これは、トレーニング設定とテスト設定で単語の分布が異なる場合にモデルの一般化可能性を評価することを目的としています。
さらに、我々は、対照学習を備えた新しいバイアス軽減マルチモーダル皮肉検出フレームワークを提案します。これは、ロバストな OOD 一般化のために偏ったテキスト要素の悪影響を軽減することを目的としています。
特に、最初に反事実データ拡張を設計して、異なる単語バイアスを持つ肯定的なサンプルと同様の単語バイアスを持つ否定的なサンプルを構築します。
続いて、モデルが堅牢なタスク関連の特徴を学習し、バイアスのある単語の悪影響を軽減できるようにするために、適応されたバイアス除去対比学習メカニズムを考案します。
広範な実験により、提案されたフレームワークの優位性が示されています。
要約(オリジナル)
Despite commendable achievements made by existing work, prevailing multimodal sarcasm detection studies rely more on textual content over visual information. It unavoidably induces spurious correlations between textual words and labels, thereby significantly hindering the models’ generalization capability. To address this problem, we define the task of out-of-distribution (OOD) multimodal sarcasm detection, which aims to evaluate models’ generalizability when the word distribution is different in training and testing settings. Moreover, we propose a novel debiasing multimodal sarcasm detection framework with contrastive learning, which aims to mitigate the harmful effect of biased textual factors for robust OOD generalization. In particular, we first design counterfactual data augmentation to construct the positive samples with dissimilar word biases and negative samples with similar word biases. Subsequently, we devise an adapted debiasing contrastive learning mechanism to empower the model to learn robust task-relevant features and alleviate the adverse effect of biased words. Extensive experiments show the superiority of the proposed framework.
arxiv情報
著者 | Mengzhao Jia,Can Xie,Liqiang Jing |
発行日 | 2023-12-19 15:55:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google