要約
視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大幅に進歩しました。
ただし、現実世界の操作に対する堅牢性は依然として解明されておらず、重要なアプリケーションにおける信頼性が制限されています。
このギャップに対処するために、回転、ドロップ、マスキング、置換、反復などのビデオ改ざん効果に対する VLM の回復力を評価するために設計された包括的なベンチマークである MVTamperBench を導入します。
MVTamperBench は、最先端のモデルを体系的に評価することにより、InternVL2-8B のようなモデルは高いパフォーマンスを達成する一方で、Llama-VILA1.5-8B などの他のモデルは深刻な脆弱性を示すなど、堅牢性の大幅なばらつきを明らかにします。
より広範な導入と再現性を促進するために、MVTamperBench はモジュール式評価ツールキットである VLMEvalKit に統合されており、テストを合理化し、モデルの堅牢性の向上を促進します。
私たちのベンチマークは、改ざん耐性のある VLM の開発に向けた重要なステップを表し、実際のシナリオでの信頼性を確保します。
プロジェクトページ: https://amitbcp.github.io/MVTamperBench/
要約(オリジナル)
Recent advancements in Vision-Language Models (VLMs) have enabled significant progress in complex video understanding tasks. However, their robustness to real-world manipulations remains underexplored, limiting their reliability in critical applications. To address this gap, we introduce MVTamperBench, a comprehensive benchmark designed to evaluate VLM’s resilience to video tampering effects, including rotation, dropping, masking, substitution, and repetition. By systematically assessing state-of-the-art models, MVTamperBench reveals substantial variability in robustness, with models like InternVL2-8B achieving high performance, while others, such as Llama-VILA1.5-8B, exhibit severe vulnerabilities. To foster broader adoption and reproducibility, MVTamperBench is integrated into VLMEvalKit, a modular evaluation toolkit, enabling streamlined testing and facilitating advancements in model robustness. Our benchmark represents a critical step towards developing tamper-resilient VLMs, ensuring their dependability in real-world scenarios. Project Page: https://amitbcp.github.io/MVTamperBench/
arxiv情報
著者 | Amit Agarwal,Srikant Panda,Angeline Charles,Bhargava Kumar,Hitesh Patel,Priyanranjan Pattnayak,Taki Hasan Rafi,Tejaswini Kumar,Dong-Kyu Chae |
発行日 | 2024-12-27 18:47:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google