Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

要約

マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマルチモーダルベンチマークで優れた性能が実証されています。
ただし、トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較に課題を生み出します。
大規模な言語モデル(LLM)でのモデルの汚染を検出するための多くの方法が存在しますが、さまざまなモダリティと複数のトレーニングフェーズのため、MLLMの効果が低くなります。
この研究では、MLLMS向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-検出フレームワークを紹介します。
私たちの実験結果は、MM検出がさまざまな程度の汚染を特定するのに非常に効果的で敏感であり、マルチモーダルベンチマークトレーニングセットの漏れにより大幅なパフォーマンスの改善を強調できることを示しています。
さらに、汚染がMLLMSまたはマルチモーダルトレーニングフェーズで使用される基本LLMから発生するかどうかを調査し、汚染が導入される段階への新しい洞察を提供します。

要約(オリジナル)

The rapid progression of multimodal large language models (MLLMs) has demonstrated superior performance on various multimodal benchmarks. However, the issue of data contamination during training creates challenges in performance evaluation and comparison. While numerous methods exist for detecting models’ contamination in large language models (LLMs), they are less effective for MLLMs due to their various modalities and multiple training phases. In this study, we introduce a multimodal data contamination detection framework, MM-Detect, designed for MLLMs. Our experimental results indicate that MM-Detect is quite effective and sensitive in identifying varying degrees of contamination, and can highlight significant performance improvements due to the leakage of multimodal benchmark training sets. Furthermore, we explore whether the contamination originates from the base LLMs used by MLLMs or the multimodal training phase, providing new insights into the stages at which contamination may be introduced.

arxiv情報

著者 Dingjie Song,Sicheng Lai,Shunian Chen,Lichao Sun,Benyou Wang
発行日 2025-02-17 18:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク