RAG-Adapter: A Plug-and-Play RAG-enhanced Framework for Long Video Understanding

要約

ビデオ理解が可能なマルチモーダルの大手言語モデル(MLLMS)は急速に進んでいます。
ビデオ理解機能を効果的に評価するために、ビデオMMEやMLVUなどの長いビデオ理解ベンチマークが提案されています。
ただし、これらのベンチマークは、テストに均一なフレームサンプリングを直接使用します。これにより、重要な情報損失が生じ、MLLMの真の能力を反映する評価の精度に影響します。
これに対処するために、特定の質問に最も関連するサンプリングフレームによるテスト中の情報損失を減らすプラグアンドプレイフレームワークであるRag-Adapterを提案します。
さらに、構築されたMMATデータセットで微調整を通じてRAG-Adapterのサンプリング効果をさらに強化するために、グループ化された監視対照学習(GCL)メソッドを導入します。
最後に、さまざまなビデオ理解ベンチマークで多数のベースラインMLLMSをテストし、rag-adapterサンプリングが一貫して均一なサンプリングを上回ることがわかりました(たとえば、GPT-4oの精度はビデオ-mmeで9.3%増加します)。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) capable of video understanding are advancing rapidly. To effectively assess their video comprehension capabilities, long video understanding benchmarks, such as Video-MME and MLVU, are proposed. However, these benchmarks directly use uniform frame sampling for testing, which results in significant information loss and affects the accuracy of the evaluations in reflecting the true abilities of MLLMs. To address this, we propose RAG-Adapter, a plug-and-play framework that reduces information loss during testing by sampling frames most relevant to the given question. Additionally, we introduce a Grouped-supervised Contrastive Learning (GCL) method to further enhance sampling effectiveness of RAG-Adapter through fine-tuning on our constructed MMAT dataset. Finally, we test numerous baseline MLLMs on various video understanding benchmarks, finding that RAG-Adapter sampling consistently outperforms uniform sampling (e.g., Accuracy of GPT-4o increases by 9.3 percent on Video-MME), providing a more accurate testing method for long video benchmarks.

arxiv情報

著者 Xichen Tan,Yunfan Ye,Yuanjing Luo,Qian Wan,Fang Liu,Zhiping Cai
発行日 2025-03-11 16:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク