Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

要約

ビデオを理解するための現在の LLM ベースのモデルのほとんどは、数分以内にビデオを処理できます。
ただし、「ノイズと冗長性」、「メモリと計算」の制約などの課題により、長いビデオに苦労しています。
この論文では、任意の長さのビデオを理解するために調整された方法論である金魚を紹介します。
また、ビジョンとテキストの両方のコンテンツに質問がある長いビデオを理解するモデルの能力を評価するために特別に設計された TVQA-long ベンチマークも紹介します。
金魚は、目的の応答を提供する前に、最初に命令に関連する上位 k 個のビデオ クリップを収集する効率的な検索メカニズムを使用して、これらの課題に取り組みます。
この検索メカニズムの設計により、金魚は任意の長さのビデオ シーケンスを効率的に処理できるようになり、映画やテレビ シリーズなどのコンテキストでの応用が容易になります。
検索プロセスを容易にするために、ビデオ クリップの詳細な説明を生成する MiniGPT4-Video を開発しました。
長いビデオ評価用のベンチマークの不足に対処するために、エピソード全体からの質問を集約することにより、TVQA の短いビデオ ベンチマークを拡張コンテンツ分析に適合させ、それによって評価を部分的なエピソードの理解から完全なエピソードの理解に移行しました。
TVQA-long ベンチマークでは 41.78% の精度を達成し、以前の方法を 14.94% 上回りました。
当社の MiniGPT4-Video は、短いビデオの理解においても優れたパフォーマンスを示し、MSVD、MSRVTT、TGIF、TVQA の短いビデオ ベンチマークで既存の最先端の手法をそれぞれ 3.23%、2.03%、16.5%、23.59% 上回っています。

これらの結果は、私たちのモデルが長いビデオと短いビデオの両方の理解において大幅に向上していることを示しています。
私たちのモデルとコードは https://vision-cair.github.io/Goldfish_website/ で公開されています。

要約(オリジナル)

Most current LLM-based models for video understanding can process videos within minutes. However, they struggle with lengthy videos due to challenges such as ‘noise and redundancy’, as well as ‘memory and computation’ constraints. In this paper, we present Goldfish, a methodology tailored for comprehending videos of arbitrary lengths. We also introduce the TVQA-long benchmark, specifically designed to evaluate models’ capabilities in understanding long videos with questions in both vision and text content. Goldfish approaches these challenges with an efficient retrieval mechanism that initially gathers the top-k video clips relevant to the instruction before proceeding to provide the desired response. This design of the retrieval mechanism enables the Goldfish to efficiently process arbitrarily long video sequences, facilitating its application in contexts such as movies or television series. To facilitate the retrieval process, we developed MiniGPT4-Video that generates detailed descriptions for the video clips. In addressing the scarcity of benchmarks for long video evaluation, we adapted the TVQA short video benchmark for extended content analysis by aggregating questions from entire episodes, thereby shifting the evaluation from partial to full episode comprehension. We attained a 41.78% accuracy rate on the TVQA-long benchmark, surpassing previous methods by 14.94%. Our MiniGPT4-Video also shows exceptional performance in short video comprehension, exceeding existing state-of-the-art methods by 3.23%, 2.03%, 16.5% and 23.59% on the MSVD, MSRVTT, TGIF, and TVQA short video benchmarks, respectively. These results indicate that our models have significant improvements in both long and short-video understanding. Our models and code have been made publicly available at https://vision-cair.github.io/Goldfish_website/

arxiv情報

著者 Kirolos Ataallah,Xiaoqian Shen,Eslam Abdelrahman,Essam Sleiman,Mingchen Zhuge,Jian Ding,Deyao Zhu,Jürgen Schmidhuber,Mohamed Elhoseiny
発行日 2024-07-17 15:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク