MVTamperBench: Evaluating Robustness of Vision-Language Models

要約

マルチモーダル大手言語モデル（MLLMS）は、ビデオ理解の大きな進歩を促進した視覚言語モデル（VLM）の最近の進歩です。
しかし、敵対的な改ざんや操作に対する彼らの脆弱性は未熟なままです。
このギャップに対処するために、\ textbf {mvtamperbench}を導入します。これは、5つの一般的な改ざん技術に対するMLLMの堅牢性を体系的に評価するベンチマークです。
監視干渉、ソーシャルメディアコンテンツの編集、誤報注入などの実際の視覚改ざんシナリオに基づいています。
MVTamperbenchは、〜3.4kのオリジナルビデオで構成され、19個の異なるビデオ操作タスクをカバーする約17kの改ざんされたクリップに拡張されました。
このベンチマークは、空間的および時間的一貫性の操作を検出するためのモデルに挑戦します。
15以上のモデルファミリから45の最近のMLLMを評価します。
改ざんの種類全体の回復力の大幅な変動性を明らかにし、パラメーター数が大きいほど堅牢性を保証しないことを示します。
MVTamperbenchは、ClickBaitの検出、有害なコンテンツの分布の防止、メディアプラットフォームでのポリシーの実施など、安全批判的なアプリケーションで改ざん抵抗力のあるMLLMを開発するための新しいベンチマークを設定します。
すべてのコード、データ、ベンチマークをリリースして、信頼できるビデオ理解のオープンリサーチを促進します。
コード：https：//amitbcp.github.io/mvtamperbench/データ：https：//huggingface.co/datasets/srikant86/mvtamperbench

要約(オリジナル)

Multimodal Large Language Models (MLLMs), are recent advancement of Vision-Language Models (VLMs) that have driven major advances in video understanding. However, their vulnerability to adversarial tampering and manipulations remains underexplored. To address this gap, we introduce \textbf{MVTamperBench}, a benchmark that systematically evaluates MLLM robustness against five prevalent tampering techniques: rotation, masking, substitution, repetition, and dropping; based on real-world visual tampering scenarios such as surveillance interference, social media content edits, and misinformation injection. MVTamperBench comprises ~3.4K original videos, expanded into over ~17K tampered clips covering 19 distinct video manipulation tasks. This benchmark challenges models to detect manipulations in spatial and temporal coherence. We evaluate 45 recent MLLMs from 15+ model families. We reveal substantial variability in resilience across tampering types and show that larger parameter counts do not necessarily guarantee robustness. MVTamperBench sets a new benchmark for developing tamper-resilient MLLM in safety-critical applications, including detecting clickbait, preventing harmful content distribution, and enforcing policies on media platforms. We release all code, data, and benchmark to foster open research in trustworthy video understanding. Code: https://amitbcp.github.io/MVTamperBench/ Data: https://huggingface.co/datasets/Srikant86/MVTamperBench

arxiv情報

著者	Amit Agarwal,Srikant Panda,Angeline Charles,Bhargava Kumar,Hitesh Patel,Priyaranjan Pattnayak,Taki Hasan Rafi,Tejaswini Kumar,Hansa Meghwani,Karan Gupta,Dong-Kyu Chae
発行日	2025-06-11 16:24:02+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

MVTamperBench: Evaluating Robustness of Vision-Language Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー