FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding

要約

大規模なマルチモーダルモデル(LMM)では印象的な進歩がありました。
最近の作品は、これらのモデルをマルチページドキュメントや長いビデオなど、長い入力に拡張しています。
ただし、これらの長いコンテキストモデルのモデルサイズとパフォーマンスは、トレーニングと推論の両方で計算コストのために依然として制限されています。
この作業では、直交方向を探索し、長いコンテキストLMMを使用せずに長い入力を処理します。
フレーム選択拡張生成(frag)を提案します。ここでは、モデルが最初に入力内で関連するフレームを選択し、次に選択したフレームに基づいて最終出力のみを生成します。
選択プロセスのコアは、各フレームを個別にスコアリングすることによって行われますが、これには長いコンテキスト処理は必要ありません。
最高のスコアのフレームは、単純なTOP-K選択によって選択されます。
このイライラするほどシンプルなフレームワークは、微調整せずに既存のLMMを使用して、長いビデオとマルチページドキュメントの両方に適用できることを示します。
実験では、Llava-OnevisionとInternVl2の2つのモデルを検討し、断片がパフォーマンスを一貫して改善し、長いビデオと長い文書の理解の両方で最先端のパフォーマンスを達成することを示しています。
ビデオの場合、FragはMLVUでInternVL2-76Bを5.8%、ビデオMMEで3.7%改善します。
ドキュメントの場合、fragは、長い文書の理解に特化した最近のLMMと比較して、MP-DOCVQAの20%以上の改善を達成しています。
コードはhttps://github.com/nvlabs/fragで入手できます

要約(オリジナル)

There has been impressive progress in Large Multimodal Models (LMMs). Recent works extend these models to long inputs, including multi-page documents and long videos. However, the model size and performance of these long context models are still limited due to the computational cost in both training and inference. In this work, we explore an orthogonal direction and process long inputs without long context LMMs. We propose Frame Selection Augmented Generation (FRAG), where the model first selects relevant frames within the input, and then only generates the final outputs based on the selected frames. The core of the selection process is done by scoring each frame independently, which does not require long context processing. The frames with the highest scores are then selected by a simple Top-K selection. We show that this frustratingly simple framework is applicable to both long videos and multi-page documents using existing LMMs without any fine-tuning. We consider two models, LLaVA-OneVision and InternVL2, in our experiments and show that FRAG consistently improves the performance and achieves state-of-the-art performances for both long video and long document understanding. For videos, FRAG substantially improves InternVL2-76B by 5.8% on MLVU and 3.7% on Video-MME. For documents, FRAG achieves over 20% improvements on MP-DocVQA compared with recent LMMs specialized in long document understanding. Code is available at: https://github.com/NVlabs/FRAG

arxiv情報

著者 De-An Huang,Subhashree Radhakrishnan,Zhiding Yu,Jan Kautz
発行日 2025-04-24 11:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク