要約
ディープラーニングと大規模な事前トレーニングのおかげで、ビデオ質問応答 (VideoQA) の分野では大きな進歩が見られました。
洗練されたモデル構造と強力なビデオとテキストの基礎モデルが存在するにもかかわらず、既存の手法のほとんどは、トレーニング中の回答とビデオと質問のペアの間の相関関係を最大化することだけに焦点を当てています。
私たちは、これらのモデルはショートカットを確立することが多く、特にビデオ データとテキスト データの間の整合性が最適ではない場合に、質問と回答の間に誤った相関関係が生じると主張します。
これらの偽の相関関係に対処するために、表面的な質問と回答の相関関係のみに基づいて推測を行うのではなく、介入された質問が提示されたときにモデルが無知であることを強制される新しいトレーニング フレームワークを提案します。
変位や摂動などのテクニックを利用して質問に介入するための方法論を導入し、複数選択の VideoQA と自由形式の設定の両方で知識の不足を認めるモデルのフレームワークを設計します。
実際には、最先端のモデルをフレームワークに統合して、その有効性を検証します。
この結果は、私たちのフレームワークが最小限の構造変更で VideoQA モデルのパフォーマンスを大幅に向上できることを明確に示しています。
要約(オリジナル)
Significant progress has been made in the field of video question answering (VideoQA) thanks to deep learning and large-scale pretraining. Despite the presence of sophisticated model structures and powerful video-text foundation models, most existing methods focus solely on maximizing the correlation between answers and video-question pairs during training. We argue that these models often establish shortcuts, resulting in spurious correlations between questions and answers, especially when the alignment between video and text data is suboptimal. To address these spurious correlations, we propose a novel training framework in which the model is compelled to acknowledge its ignorance when presented with an intervened question, rather than making guesses solely based on superficial question-answer correlations. We introduce methodologies for intervening in questions, utilizing techniques such as displacement and perturbation, and design frameworks for the model to admit its lack of knowledge in both multi-choice VideoQA and open-ended settings. In practice, we integrate a state-of-the-art model into our framework to validate its effectiveness. The results clearly demonstrate that our framework can significantly enhance the performance of VideoQA models with minimal structural modifications.
arxiv情報
著者 | Haopeng Li,Tom Drummond,Mingming Gong,Mohammed Bennamoun,Qiuhong Ke |
発行日 | 2025-01-15 12:44:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google