要約
ビデオの質問応答 (QA) は、ビデオを理解する上で中心的なタスクです。
ビデオ大規模言語モデル (VideoLLM) をトレーニングするためのビデオ QA とビデオ キャプション データの品質を評価することは、重要な課題です。
ビデオキャプションの品質を評価するためにさまざまな方法が提案されていますが、ビデオ QA に特化した評価方法は依然として不足しています。
このギャップに対処するために、キーワード抽出を利用してビデオ キャプションとビデオ QA データ品質の両方を評価する、リファレンスフリーの手法である EVQAScore を導入します。
さらに、評価の効率と堅牢性を高めるためにフレーム サンプリングと再スケーリング技術を組み込んでおり、これによりスコアで非常に長いビデオの品質を評価できるようになります。
私たちのアプローチは、ビデオキャプション評価の VATEX-EVAL ベンチマークで最先端の (SOTA) パフォーマンス (ケンダル相関で 32.8、スピアマン相関で 42.3、以前の手法 PAC-S++ よりも 4.7 および 5.9 高い) を達成しました。
さらに、データ選択に EVQAScore を使用することで、元のデータ量のわずか 12.5% で SOTA の結果を達成しました。これは、以前の SOTA 手法である PAC-S とデータの 100% を上回りました。
要約(オリジナル)
Video question-answering (QA) is a core task in video understanding. Evaluating the quality of video QA and video caption data quality for training video large language models (VideoLLMs) is an essential challenge. Although various methods have been proposed for assessing video caption quality, there remains a lack of dedicated evaluation methods for Video QA. To address this gap, we introduce EVQAScore, a reference-free method that leverages keyword extraction to assess both video caption and video QA data quality. Additionally, we incorporate frame sampling and rescaling techniques to enhance the efficiency and robustness of our evaluation, this enables our score to evaluate the quality of extremely long videos. Our approach achieves state-of-the-art (SOTA) performance (32.8 for Kendall correlation and 42.3 for Spearman correlation, 4.7 and 5.9 higher than the previous method PAC-S++) on the VATEX-EVAL benchmark for video caption evaluation. Furthermore, by using EVQAScore for data selection, we achieved SOTA results with only 12.5\% of the original data volume, outperforming the previous SOTA method PAC-S and 100\% of data.
arxiv情報
著者 | Hao Liang,Zirong Chen,Wentao Zhang |
発行日 | 2024-11-11 12:11:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google