FunQA: Towards Surprising Video Comprehension

要約

面白いクリップ、創造的なパフォーマンス、視覚的な錯覚など、驚くべきビデオは大きな注目を集めます。
これらのビデオの楽しみは、単に視覚的な刺激に反応するだけではありません。
むしろ、これらのビデオで描かれている常識違反を理解する(そして評価する)人間の能力にかかっています。
FunQA は、直感に反する楽しいビデオに基づいてビデオ推論の深さを評価および強化するために特別に設計された、挑戦的なビデオ質問応答 (QA) データセットです。
料理や教育ビデオなど、あまり驚くべき内容に焦点を当てていないほとんどのビデオ QA ベンチマークとは異なり、FunQA は、これまで調査されていなかった 3 つのタイプの驚くべきビデオ、1) HumorQA、2) CreativeQA、3) MagicQA をカバーします。
サブセットごとに、直感に反するタイムスタンプの位置特定、詳細なビデオの説明、および直感に反する推論におけるモデルの機能を評価するように設計された厳密な QA タスクを確立します。
また、ビデオに適切で鮮やかなタイトルを付けたり、ビデオの創造性を採点したりするなど、より高度なタスクも課します。
合計で、FunQA ベンチマークは、4.3K のビデオ クリップから派生した 312K のフリーテキスト QA ペアで構成され、合計 24 時間のビデオに及びます。
さらに、我々は、視覚言語モデル (VLM) 用に設計されたエージェントである FunMentor を提案します。これは、マルチターン対話を使用して、直観に反するモデルの理解を強化します。
既存の VLM を使用した広範な実験により、FunMentor の有効性が実証され、時空間推論、視覚中心の推論、およびフリーテキスト生成における FunQA ビデオのパフォーマンスの大きなギャップが明らかになりました。

要約(オリジナル)

Surprising videos, such as funny clips, creative performances, or visual illusions, attract significant attention. Enjoyment of these videos is not simply a response to visual stimuli; rather, it hinges on the human capacity to understand (and appreciate) commonsense violations depicted in these videos. We introduce FunQA, a challenging video question-answering (QA) dataset specifically designed to evaluate and enhance the depth of video reasoning based on counter-intuitive and fun videos. Unlike most video QA benchmarks which focus on less surprising contexts, e.g., cooking or instructional videos, FunQA covers three previously unexplored types of surprising videos: 1) HumorQA, 2) CreativeQA, and 3) MagicQA. For each subset, we establish rigorous QA tasks designed to assess the model’s capability in counter-intuitive timestamp localization, detailed video description, and reasoning around counter-intuitiveness. We also pose higher-level tasks, such as attributing a fitting and vivid title to the video and scoring the video creativity. In total, the FunQA benchmark consists of 312K free-text QA pairs derived from 4.3K video clips, spanning a total of 24 video hours. Moreover, we propose FunMentor, an agent designed for Vision-Language Models (VLMs) that uses multi-turn dialogues to enhance models’ understanding of counter-intuitiveness. Extensive experiments with existing VLMs demonstrate the effectiveness of FunMentor and reveal significant performance gaps for the FunQA videos across spatial-temporal reasoning, visual-centered reasoning, and free-text generation.

arxiv情報

著者 Binzhu Xie,Sicheng Zhang,Zitang Zhou,Bo Li,Yuanhan Zhang,Jack Hessel,Jingkang Yang,Ziwei Liu
発行日 2024-03-22 13:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク