要約
ビデオの質問応答は、ビデオ理解の分野における基本的なタスクです。
Video Transformer を備えた現在のビジョン言語モデル (VLM) は時間モデリングを可能にし、優れた結果をもたらしましたが、膨大な計算能力を犠牲にしており、したがってリアルタイム アプリケーション シナリオに導入するにはコストが高すぎます。
経済的な回避策は、フレームのごく一部をサンプリングしてビデオの主要なコンテンツを表現し、これらのサンプリングされたフレームで画像テキスト モデルを調整するだけです。
最近のビデオ理解モデルは通常、視覚コンテンツ間の内部相関や問題との関連性に関係なく、一連のフレームまたはクリップをランダムにサンプリングします。
私たちは、このような種類の目的のないサンプリングでは、正解を導き出すためのキー フレームが省略される可能性があり、サンプリングのスパース性が増加すると状況が悪化する可能性があると主張します。これはビデオの長さが増加すると必ず発生します。
この問題を軽減するために、与えられた質問にとって最も重要である可能性が高いフレームを最大限に保存するために、2 つのフレーム サンプリング戦略、つまり最もドメイン フレーム (MDF) と最も暗黙的なフレーム (MIF) を提案します。
MDF はブートストラップ方式でキー フレーム欠落のリスクを受動的に最小限に抑えますが、MIS は補助モデルの支援を受けて、ビデオと質問のペアごとにカスタマイズされたキー フレームを積極的に検索します。
3 つの高度な VLM (CLIP、GIT、およびオールインワン) の 3 つの公開データセットに関する実験結果は、私たちが提案した戦略が画像テキストの事前トレーニング済みモデルのパフォーマンスを向上させることができることを示しています。
この論文で提案する手法に関連するソース コードは、https://github.com/declare-lab/sas-vqa で公開されています。
要約(オリジナル)
Video question-answering is a fundamental task in the field of video understanding. Although current vision–language models (VLMs) equipped with Video Transformers have enabled temporal modeling and yielded superior results, they are at the cost of huge computational power and thus too expensive to deploy in real-time application scenarios. An economical workaround only samples a small portion of frames to represent the main content of that video and tune an image–text model on these sampled frames. Recent video understanding models usually randomly sample a set of frames or clips, regardless of internal correlations between their visual contents, nor their relevance to the problem. We argue that such kinds of aimless sampling may omit the key frames from which the correct answer can be deduced, and the situation gets worse when the sampling sparsity increases, which always happens as the video lengths increase. To mitigate this issue, we propose two frame sampling strategies, namely the most domain frames (MDF) and most implied frames (MIF), to maximally preserve those frames that are most likely vital to the given questions. MDF passively minimizes the risk of key frame omission in a bootstrap manner, while MIS actively searches key frames customized for each video–question pair with the assistance of auxiliary models. The experimental results on three public datasets from three advanced VLMs (CLIP, GIT and All-in-one) demonstrate that our proposed strategies can boost the performance for image-text pretrained models. The source codes pertaining to the method proposed in this paper are publicly available at https://github.com/declare-lab/sas-vqa.
arxiv情報
著者 | Wei Han,Hui Chen,Min-Yen Kan,Soujanya Poria |
発行日 | 2024-03-31 12:10:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google