要約
ビデオ質問応答法は、物や人、および時間の経過に伴うそれらの相互作用の常識的な推論と視覚的認識に焦点を当てています。
現在の VideoQA アプローチは、ビデオに存在するテキスト情報を無視します。
代わりに、テキスト情報はアクションを補完し、推論プロセスに不可欠な文脈化の手がかりを提供すると主張します。
この目的のために、ビデオのテキストを読んで理解する必要がある新しい VideoQA タスクを提案します。
この方向性を探求するために、私たちはニュースビデオに焦点を当て、ビデオ内の視覚的手がかりとテキストの手がかりを組み合わせることによって提示されるトピックに関する質問を理解し、それに答えるQAシステムを必要とします。
世界中のさまざまなニュース チャンネルから取得した 3,000 ドル以上のニュース ビデオの 8,600 ドル以上の QA ペアで構成される「NewsVideoQA」データセットを紹介します。
現在の Scene Text VQA および VideoQA メソッドの限界を示し、シーン テキスト情報を VideoQA メソッドに組み込む方法を提案します。
要約(オリジナル)
Video Question Answering methods focus on commonsense reasoning and visual cognition of objects or persons and their interactions over time. Current VideoQA approaches ignore the textual information present in the video. Instead, we argue that textual information is complementary to the action and provides essential contextualisation cues to the reasoning process. To this end, we propose a novel VideoQA task that requires reading and understanding the text in the video. To explore this direction, we focus on news videos and require QA systems to comprehend and answer questions about the topics presented by combining visual and textual cues in the video. We introduce the “NewsVideoQA” dataset that comprises more than $8,600$ QA pairs on $3,000+$ news videos obtained from diverse news channels from around the world. We demonstrate the limitations of current Scene Text VQA and VideoQA methods and propose ways to incorporate scene text information into VideoQA methods.
arxiv情報
| 著者 | Soumya Jahagirdar,Minesh Mathew,Dimosthenis Karatzas,C. V. Jawahar |
| 発行日 | 2022-11-10 13:58:38+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google