要約
近年、オンライン ビデオ コンテンツの急速な増加により、固定データセットでトレーニングされた静的ビデオ質問応答 (VideoQA) モデルの限界が浮き彫りになり、新しく利用可能なコンテンツによってもたらされる新しい質問やタスクに適応するのに苦労しています。
このペーパーでは、継続的な学習フレームワーク内で VideoQA の新しい課題を検討し、一連のタスクに合わせて大規模言語モデル (LLM) を微調整すると、致命的な忘れが生じることが多いという重大な問題を経験的に特定します。
これに対処するために、特定の質問制約プロンプト、知識獲得プロンプト、および視覚的時間的認識プロンプトを統合する共同プロンプティング (ColPro) を提案します。
これらのプロンプトは、VideoQA でテキストの質問コンテキスト、ビジュアル コンテンツ、およびビデオの時間的ダイナミクスをキャプチャすることを目的としていますが、これは先行研究では十分に検討されていない視点です。
NExT-QA および DramaQA データセットの実験結果では、ColPro が既存のアプローチと比較して優れたパフォーマンスを実現し、NExT-QA で 55.14\% の精度、DramaQA で 71.24\% の精度を達成し、その実用的な関連性と有効性を強調しています。
要約(オリジナル)
In recent years, the rapid increase in online video content has underscored the limitations of static Video Question Answering (VideoQA) models trained on fixed datasets, as they struggle to adapt to new questions or tasks posed by newly available content. In this paper, we explore the novel challenge of VideoQA within a continual learning framework, and empirically identify a critical issue: fine-tuning a large language model (LLM) for a sequence of tasks often results in catastrophic forgetting. To address this, we propose Collaborative Prompting (ColPro), which integrates specific question constraint prompting, knowledge acquisition prompting, and visual temporal awareness prompting. These prompts aim to capture textual question context, visual content, and video temporal dynamics in VideoQA, a perspective underexplored in prior research. Experimental results on the NExT-QA and DramaQA datasets show that ColPro achieves superior performance compared to existing approaches, achieving 55.14\% accuracy on NExT-QA and 71.24\% accuracy on DramaQA, highlighting its practical relevance and effectiveness.
arxiv情報
著者 | Chen Cai,Zheng Wang,Jianjun Gao,Wenyang Liu,Ye Lu,Runzhong Zhang,Kim-Hui Yap |
発行日 | 2025-01-17 04:47:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google