要約
ソーシャルメディアのグローバルリーチは、情報の広がりを増幅し、言語やモダリティ全体のスタンス検出などの堅牢な自然言語処理タスクの必要性を強調しています。
以前の研究では、主にテキストのみの入力に焦点を当てており、画像とテキストの両方を含むようなマルチモーダルシナリオは、比較的目立たないものを残しています。
一方、マルチモーダルポストの有病率は近年大幅に増加しています。
最先端のビジョン言語モデル(VLMS)は有望であることを示していますが、マルチモーダルおよび多言語のスタンス検出タスクのパフォーマンスはほとんど依然として未検証のままです。
このペーパーでは、7つの言語とマルチモーダル入力をカバーする新しく拡張されたデータセットで最先端のVLMSを評価し、視覚的なキュー、言語固有のパフォーマンス、および相互相互作用の使用を調査します。
私たちの結果は、VLMが一般に、スタンス検出のために画像よりもテキストに依存しており、この傾向は言語全体で持続していることを示しています。
さらに、VLMは、他の視覚コンテンツよりも画像内に含まれるテキストに大きく依存しています。
多言語性に関して、研究されたモデルは、マクロF1、言語サポート、モデルサイズと不調和な外れ値がありますが、言語間で一貫した予測を生成する傾向があります。
要約(オリジナル)
Social media’s global reach amplifies the spread of information, highlighting the need for robust Natural Language Processing tasks like stance detection across languages and modalities. Prior research predominantly focuses on text-only inputs, leaving multimodal scenarios, such as those involving both images and text, relatively underexplored. Meanwhile, the prevalence of multimodal posts has increased significantly in recent years. Although state-of-the-art Vision-Language Models (VLMs) show promise, their performance on multimodal and multilingual stance detection tasks remains largely unexamined. This paper evaluates state-of-the-art VLMs on a newly extended dataset covering seven languages and multimodal inputs, investigating their use of visual cues, language-specific performance, and cross-modality interactions. Our results show that VLMs generally rely more on text than images for stance detection and this trend persists across languages. Additionally, VLMs rely significantly more on text contained within the images than other visual content. Regarding multilinguality, the models studied tend to generate consistent predictions across languages whether they are explicitly multilingual or not, although there are outliers that are incongruous with macro F1, language support, and model size.
arxiv情報
著者 | Jake Vasilakes,Carolina Scarton,Zhixue Zhao |
発行日 | 2025-01-29 13:39:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google