要約
画像言語BERT(IL-BERT)や動画言語BERT(VDL-BERT)では、オブジェクトと単語の位置関係を合わせることが重要な役割を果たします。オブジェクトがいくつかの空間パッチをカバーする画像の場合とは異なり、ビデオ内のオブジェクトは通常、オブジェクトの軌跡として表示されます。つまり、少数の空間パッチとより長い時間パッチにまたがり、したがって、豊富な時空間コンテキストを含んでいます。しかし、現代のVDL-BERTはこの軌跡の特徴を無視し、IL-BERTに倣ってパッチ・トゥ・ワード(P2W)注意を展開するが、この注意は些細な空間コンテキストを過剰に利用し、重要な時間コンテキストを無視する可能性がある。この問題を解決するために、我々はビデオ言語タスクを解決するためのTrajectory-Wordアライメントを学習する新しいTW-BERTを提案する。このアライメントは、新しく設計された軌跡-単語間(T2W)注意によって学習される。T2W注意の他に、我々は過去のVDL-BERTに倣って、クロスモーダルエンコーダにワードトゥパッチ(W2P)注意も設定する。T2W注意とW2P注意は多様な構造を持つため、我々のクロスモーダル・エンコーダは非対称である。この非対称なクロスモーダルエンコーダが視覚と言語の関連付けを強固にするために、我々はビデオエンコーダとテキストエンコーダが計算した埋め込み空間を近づける「融合前同調」戦略を提案する。提案する戦略とT2W注意により、我々のTW-BERTはテキストからビデオへの検索タスクでSOTA性能を達成し、ビデオ質問応答タスクではより多くのデータで学習したいくつかのVDL-BERTと同等の性能を達成することができる。コードは補足資料で公開予定です。
要約(オリジナル)
Aligning objects with words plays a critical role in Image-Language BERT (IL-BERT) and Video-Language BERT (VDL-BERT). Different from the image case where an object covers some spatial patches, an object in a video usually appears as an object trajectory, i.e., it spans over a few spatial but longer temporal patches and thus contains abundant spatiotemporal contexts. However, modern VDL-BERTs neglect this trajectory characteristic that they usually follow IL-BERTs to deploy the patch-to-word (P2W) attention while such attention may over-exploit trivial spatial contexts and neglect significant temporal contexts. To amend this, we propose a novel TW-BERT to learn Trajectory-Word alignment for solving video-language tasks. Such alignment is learned by a newly designed trajectory-to-word (T2W) attention. Besides T2W attention, we also follow previous VDL-BERTs to set a word-to-patch (W2P) attention in the cross-modal encoder. Since T2W and W2P attentions have diverse structures, our cross-modal encoder is asymmetric. To further help this asymmetric cross-modal encoder build robust vision-language associations, we propose a fine-grained “align-before-fuse” strategy to pull close the embedding spaces calculated by the video and text encoders. By the proposed strategy and T2W attention, our TW-BERT achieves SOTA performances on text-to-video retrieval tasks, and comparable performances on video question answering tasks with some VDL-BERTs trained on much more data. The code will be available in the supplementary material.
arxiv情報
著者 | Xu Yang,Zhangzikang Li,Haiyang Xu,Hanwang Zhang,Qinghao Ye,Chenliang Li,Ming Yan,Yu Zhang,Fei Huang,Songfang Huang |
発行日 | 2023-01-06 10:06:44+00:00 |
arxivサイト | arxiv_id(pdf) |