要約
私たちは、ビデオ グラフ トランスフォーマー モデル (CoVGT) を介して、対照的な方法でビデオ質問応答 (VideoQA) を実行することを提案します。
CoVGT の独自性と優位性は 3 つあります。 1) 複雑な時空間推論のために、視覚オブジェクト、それらの関係、およびダイナミクスを明示的にキャプチャすることによってビデオをエンコードする動的グラフ変換モジュールを提案します。
2) 回答を分類するためのマルチモーダル トランスフォーマーの代わりに、QA を実行するためのビデオとテキストの対比学習用に別個のビデオ トランスフォーマーとテキスト トランスフォーマーを設計します。
きめ細かいビデオとテキストのコミュニケーションは、追加のクロスモーダル インタラクション モジュールによって実行されます。
3) 正解と不正解、およびそれぞれ関連する質問と無関係な質問の間の完全監視および自己監視の共同対照目標によって最適化されます。
優れたビデオ エンコーディングと QA ソリューションにより、CoVGT がビデオ推論タスクで従来の技術よりもはるかに優れたパフォーマンスを達成できることを示します。
そのパフォーマンスは、数百万の外部データで事前トレーニングされたモデルをも上回ります。
さらに、CoVGT はクロスモーダル事前トレーニングからも恩恵を受けられるが、データが桁違いに小さいことも示します。
この結果は、CoVGT の有効性と優位性を実証し、さらに、よりデータ効率の高い事前トレーニングの可能性を明らかにしました。
私たちの成功により、VideoQA が大まかな認識/記述を超えて、ビデオ コンテンツの詳細な関係推論に向けて前進できることを願っています。
私たちのコードは https://github.com/doc-doc/CoVGT で入手できます。
要約(オリジナル)
We propose to perform video question answering (VideoQA) in a Contrastive manner via a Video Graph Transformer model (CoVGT). CoVGT’s uniqueness and superiority are three-fold: 1) It proposes a dynamic graph transformer module which encodes video by explicitly capturing the visual objects, their relations and dynamics, for complex spatio-temporal reasoning. 2) It designs separate video and text transformers for contrastive learning between the video and text to perform QA, instead of multi-modal transformer for answer classification. Fine-grained video-text communication is done by additional cross-modal interaction modules. 3) It is optimized by the joint fully- and self-supervised contrastive objectives between the correct and incorrect answers, as well as the relevant and irrelevant questions respectively. With superior video encoding and QA solution, we show that CoVGT can achieve much better performances than previous arts on video reasoning tasks. Its performances even surpass those models that are pretrained with millions of external data. We further show that CoVGT can also benefit from cross-modal pretraining, yet with orders of magnitude smaller data. The results demonstrate the effectiveness and superiority of CoVGT, and additionally reveal its potential for more data-efficient pretraining. We hope our success can advance VideoQA beyond coarse recognition/description towards fine-grained relation reasoning of video contents. Our code is available at https://github.com/doc-doc/CoVGT.
arxiv情報
| 著者 | Junbin Xiao,Pan Zhou,Angela Yao,Yicong Li,Richang Hong,Shuicheng Yan,Tat-Seng Chua | 
| 発行日 | 2023-07-11 12:00:52+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
