要約
マルチモーダルセンチメント分析 (MSA) に関する既存の研究では、マルチモーダル情報を予測に利用していますが、マルチモーダル特徴と感情ラベルの間の誤った相関関係のフィッティングに必然的に悩まされます。
たとえば、背景が青いビデオのほとんどがデータセット内にポジティブなラベルを持っている場合、モデルは予測のためにそのような相関関係に依存しますが、「青い背景」はセンチメント関連の特徴ではありません。
この問題に対処するために、一般的なバイアス除去 MSA タスクを定義します。このタスクは、スプリアス相関への依存を減らすことで MSA モデルの分布外 (OOD) 一般化能力を強化することを目的としています。
この目的を達成するために、我々は逆確率重み付け (IPW) に基づく一般的なバイアス除去フレームワークを提案します。これは、より大きなバイアス (つまり、より深刻な偽相関) を持つサンプルに小さな重みを適応的に割り当てます。
このバイアス除去フレームワークの鍵は、各サンプルのバイアスを推定することです。これは、1) 各モダリティのロバストな特徴とバイアスされた特徴を解きほぐすこと、および 2) バイアスを推定するためにバイアスされた特徴を利用することの 2 つのステップによって達成されます。
最後に、IPW を使用して大きな偏りのあるサンプルの影響を軽減し、センチメント予測のための堅牢な特徴学習を促進します。
モデルの汎化能力を調べるために、2 つのベンチマークで元のテスト セットを保持し、さらに複数の単峰性およびマルチモーダル OOD テスト セットを構築します。
経験的な結果は、私たちが提案したフレームワークの優れた一般化能力を示しています。
再現を容易にするコードとデータを https://github.com/Teng-Sun/GEAR で公開しました。
要約(オリジナル)
Existing work on Multimodal Sentiment Analysis (MSA) utilizes multimodal information for prediction yet unavoidably suffers from fitting the spurious correlations between multimodal features and sentiment labels. For example, if most videos with a blue background have positive labels in a dataset, the model will rely on such correlations for prediction, while ‘blue background’ is not a sentiment-related feature. To address this problem, we define a general debiasing MSA task, which aims to enhance the Out-Of-Distribution (OOD) generalization ability of MSA models by reducing their reliance on spurious correlations. To this end, we propose a general debiasing framework based on Inverse Probability Weighting (IPW), which adaptively assigns small weights to the samples with larger bias (i.e., the severer spurious correlations). The key to this debiasing framework is to estimate the bias of each sample, which is achieved by two steps: 1) disentangling the robust features and biased features in each modality, and 2) utilizing the biased features to estimate the bias. Finally, we employ IPW to reduce the effects of large-biased samples, facilitating robust feature learning for sentiment prediction. To examine the model’s generalization ability, we keep the original testing sets on two benchmarks and additionally construct multiple unimodal and multimodal OOD testing sets. The empirical results demonstrate the superior generalization ability of our proposed framework. We have released the code and data to facilitate the reproduction https://github.com/Teng-Sun/GEAR.
arxiv情報
| 著者 | Teng Sun,Juntong Ni,Wenjie Wang,Liqiang Jing,Yinwei Wei,Liqiang Nie |
| 発行日 | 2023-08-07 09:08:23+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google