MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms


ソーシャル メディア プラットフォームは、テキスト、画像、ビデオを含むマルチモーダルな情報交換のハブであるため、オンライン スペースでのやり取りに関連する情報や感情を機械が理解するのは困難です。
マルチモーダル大規模言語モデル (MLLM) は、これらの課題に対する有望な解決策として浮上していますが、人間の感情や誤った情報などの複雑なコンテンツを正確に解釈するのに苦労しています。
このペーパーでは、マルチモーダル ソーシャル メディア コンテンツに対する MLLM の理解を評価するために設計された包括的なベンチマークである MM-Soc を紹介します。
MM-Soc は、著名なマルチモーダル データセットをコンパイルし、新しい大規模な YouTube タグ付けデータセットを組み込んでおり、誤った情報の検出、ヘイトスピーチの検出、社会的コンテキストの生成に至るまでのさまざまなタスクを対象としています。
4 つのオープンソース MLLM の 10 種類のサイズ バリエーションを徹底的に評価した結果、重大なパフォーマンスの差異が特定され、モデルの社会理解機能の進歩の必要性が浮き彫りになりました。
私たちの分析により、ゼロショット設定では、さまざまなタイプの MLLM が一般的にソーシャル メディア タスクの処理に困難を示すことが明らかになりました。
ただし、MLLM は微調整後のパフォーマンスの向上を示しており、改善の可能性があることが示唆されています。
コードとデータは で入手できます。


Social media platforms are hubs for multimodal information exchange, encompassing text, images, and videos, making it challenging for machines to comprehend the information or emotions associated with interactions in online spaces. Multimodal Large Language Models (MLLMs) have emerged as a promising solution to these challenges, yet they struggle to accurately interpret human emotions and complex content such as misinformation. This paper introduces MM-Soc, a comprehensive benchmark designed to evaluate MLLMs’ understanding of multimodal social media content. MM-Soc compiles prominent multimodal datasets and incorporates a novel large-scale YouTube tagging dataset, targeting a range of tasks from misinformation detection, hate speech detection, and social context generation. Through our exhaustive evaluation on ten size-variants of four open-source MLLMs, we have identified significant performance disparities, highlighting the need for advancements in models’ social understanding capabilities. Our analysis reveals that, in a zero-shot setting, various types of MLLMs generally exhibit difficulties in handling social media tasks. However, MLLMs demonstrate performance improvements post fine-tuning, suggesting potential pathways for improvement. Our code and data are available at


著者 Yiqiao Jin,Minje Choi,Gaurav Verma,Jindong Wang,Srijan Kumar
発行日 2024-07-24 15:19:20+00:00
カテゴリー: cs.CL, cs.CV, cs.CY パーマリンク