Exploring the Design Space of Visual Context Representation in Video MLLMs

要約

ビデオ マルチモーダル大規模言語モデル (MLLM) は、さまざまな下流タスクのビデオ セマンティクスを理解する優れた能力を示しています。
進歩にもかかわらず、ビデオからフレームを選択し、さらにフレームからトークンを選択するスキームを指す視覚的コンテキスト表現に関する体系的な研究はまだ不足しています。
このペーパーでは、視覚的なコンテキスト表現の設計空間を調査し、より効果的な表現スキームを見つけることでビデオ MLLM のパフォーマンスを向上させることを目指します。
まず、ビジュアル コンテキスト表現のタスクを制約付き最適化問題として定式化し、ビジュアル コンテキスト ウィンドウの最大サイズを考慮して、フレーム数とフレームごとの埋め込み (またはトークン) の数の関数として言語モデリングの損失をモデル化します。
次に、フレーム選択とトークン選択におけるスケーリング効果をそれぞれ調査し、広範な実証実験を行うことで対応する関数曲線を当てはめます。
私たちは、典型的な選択戦略の有効性を検証し、2 つの要因を決定するための経験的知見を提示します。
さらに、フレーム選択とトークン選択の共同効果を研究し、2 つの要素を決定するための最適な式を導き出します。
導出された最適な設定が、経験的実験の最も優れた結果と一致していることを示します。
コードとモデルは https://github.com/RUCAIBox/Opt-Visor で入手できます。

要約(オリジナル)

Video Multimodal Large Language Models (MLLMs) have shown remarkable capability of understanding the video semantics on various downstream tasks. Despite the advancements, there is still a lack of systematic research on visual context representation, which refers to the scheme to select frames from a video and further select the tokens from a frame. In this paper, we explore the design space for visual context representation, and aim to improve the performance of video MLLMs by finding more effective representation schemes. Firstly, we formulate the task of visual context representation as a constrained optimization problem, and model the language modeling loss as a function of the number of frames and the number of embeddings (or tokens) per frame, given the maximum visual context window size. Then, we explore the scaling effects in frame selection and token selection respectively, and fit the corresponding function curve by conducting extensive empirical experiments. We examine the effectiveness of typical selection strategies and present empirical findings to determine the two factors. Furthermore, we study the joint effect of frame selection and token selection, and derive the optimal formula for determining the two factors. We demonstrate that the derived optimal settings show alignment with the best-performed results of empirical experiments. Our code and model are available at: https://github.com/RUCAIBox/Opt-Visor.

arxiv情報

著者 Yifan Du,Yuqi Huo,Kun Zhou,Zijia Zhao,Haoyu Lu,Han Huang,Wayne Xin Zhao,Bingning Wang,Weipeng Chen,Ji-Rong Wen
発行日 2024-10-17 15:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク