要約
マルチモーダル皮肉検出は、最近大きな注目を集めています。
それにもかかわらず、既存のベンチマーク (MMSD) には、信頼性の高いマルチモーダル皮肉検出システムの開発を妨げるいくつかの欠点があります。(1) MMSD にはいくつかの偽の手がかりがあり、モデルのバイアス学習につながります。
(2) MMSD の負のサンプルは常に合理的であるとは限りません。
前述の問題を解決するために、偽のキューを削除し、不当なサンプルに再アノテーションを付けることによって、MMSD の欠点を修正する修正データセット MMSD2.0 を導入します。
一方、我々は、マルチモーダルな皮肉検出のために複数の視点(つまり、テキスト、画像、およびテキストと画像のインタラクションビュー)からのマルチグレインキューを活用できるマルチビューCLIPと呼ばれる新しいフレームワークを紹介します。
広範な実験により、MMSD2.0 は信頼性の高いマルチモーダル皮肉検出システムを構築するための貴重なベンチマークであり、マルチビュー CLIP は以前の最良のベースラインを大幅に上回る可能性があることが示されています。
要約(オリジナル)
Multi-modal sarcasm detection has attracted much recent attention. Nevertheless, the existing benchmark (MMSD) has some shortcomings that hinder the development of reliable multi-modal sarcasm detection system: (1) There are some spurious cues in MMSD, leading to the model bias learning; (2) The negative samples in MMSD are not always reasonable. To solve the aforementioned issues, we introduce MMSD2.0, a correction dataset that fixes the shortcomings of MMSD, by removing the spurious cues and re-annotating the unreasonable samples. Meanwhile, we present a novel framework called multi-view CLIP that is capable of leveraging multi-grained cues from multiple perspectives (i.e., text, image, and text-image interaction view) for multi-modal sarcasm detection. Extensive experiments show that MMSD2.0 is a valuable benchmark for building reliable multi-modal sarcasm detection systems and multi-view CLIP can significantly outperform the previous best baselines.
arxiv情報
| 著者 | Libo Qin,Shijue Huang,Qiguang Chen,Chenran Cai,Yudi Zhang,Bin Liang,Wanxiang Che,Ruifeng Xu | 
| 発行日 | 2023-07-14 03:22:51+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
