ATM: Action Temporality Modeling for Video Question Answering

要約

ビデオ質問応答 (VideoQA) は大幅に進歩しているにもかかわらず、既存の方法では、フレーム全体にわたる因果的/時間的推論を必要とする質問には不十分です。
これは、モーション表現が不正確であることが原因である可能性があります。
我々は、次の 3 つの一意性による時間性推論のためのアクション時間モデリング (ATM) を導入します。(1) オプティカル フローを再考し、オプティカル フローが長い期間の時間性推論を捉えるのに効果的であることを認識します。
(2) アクション中心の方法での対照学習によってビジュアルテキストの埋め込みをトレーニングし、視覚とテキストの両方のモダリティでより良いアクション表現につながります。
(3) 外観と動きの間の誤った相関関係を回避し、忠実な時間推論を保証するために、微調整段階でシャッフルされたビデオが与えられた場合にモデルが質問に答えることを防ぎます。
実験では、ATM が複数の VideoQA の精度の点で以前のアプローチよりも優れており、より優れた真の時間推論能力を示すことが示されました。

要約(オリジナル)

Despite significant progress in video question answering (VideoQA), existing methods fall short of questions that require causal/temporal reasoning across frames. This can be attributed to imprecise motion representations. We introduce Action Temporality Modeling (ATM) for temporality reasoning via three-fold uniqueness: (1) rethinking the optical flow and realizing that optical flow is effective in capturing the long horizon temporality reasoning; (2) training the visual-text embedding by contrastive learning in an action-centric manner, leading to better action representations in both vision and text modalities; and (3) preventing the model from answering the question given the shuffled video in the fine-tuning stage, to avoid spurious correlation between appearance and motion and hence ensure faithful temporality reasoning. In the experiments, we show that ATM outperforms previous approaches in terms of the accuracy on multiple VideoQAs and exhibits better true temporality reasoning ability.

arxiv情報

著者 Junwen Chen,Jie Zhu,Yu Kong
発行日 2023-09-05 14:52:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク