要約
ソーシャル メディア投稿からのマルチモーダル情報を効果的に活用することは、感情分析、皮肉の検出、ヘイト スピーチ分類などのさまざまな下流タスクに不可欠です。
ただし、一致する画像とテキストのペアに隠された情報や補完的な情報が存在する特異なクロスモーダル セマンティクスのため、テキスト情報と画像情報を組み合わせるのは困難です。
この作業では、事前にトレーニングされたマルチモーダル モデルを微調整するときに、メイン タスクと併用して 2 つの補助損失の使用を提案することで、これを直接モデル化することを目的としています。
画像とテキストのコントラスト (ITC) は、投稿の画像とテキストの表現を近づけて別の投稿から分離し、根底にある依存関係をキャプチャします。
画像とテキストのマッチング (ITM) は、無関係なペアにペナルティを与えることで、画像とテキストの間の意味的な対応関係の理解を容易にします。
これらの目標を 5 つのマルチモーダル モデルと組み合わせて、4 つの人気のあるソーシャル メディア データセットにわたって一貫した改善を実証します。
さらに、詳細な分析を通じて、各補助タスクが最も効果的であることが判明する特定のシナリオとケースを明らかにします。
要約(オリジナル)
Effectively leveraging multimodal information from social media posts is essential to various downstream tasks such as sentiment analysis, sarcasm detection and hate speech classification. However, combining text and image information is challenging because of the idiosyncratic cross-modal semantics with hidden or complementary information present in matching image-text pairs. In this work, we aim to directly model this by proposing the use of two auxiliary losses jointly with the main task when fine-tuning any pre-trained multimodal model. Image-Text Contrastive (ITC) brings image-text representations of a post closer together and separates them from different posts, capturing underlying dependencies. Image-Text Matching (ITM) facilitates the understanding of semantic correspondence between images and text by penalizing unrelated pairs. We combine these objectives with five multimodal models, demonstrating consistent improvements across four popular social media datasets. Furthermore, through detailed analysis, we shed light on the specific scenarios and cases where each auxiliary task proves to be most effective.
arxiv情報
| 著者 | Danae Sánchez Villegas,Daniel Preoţiuc-Pietro,Nikolaos Aletras | 
| 発行日 | 2023-09-14 15:30:59+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
