要約
ビデオ言語事前トレーニング (VLP) は、さまざまな視覚および言語タスクに一般化できるため、ますます重要になっています。
ただし、既存の自己中心的な VLP フレームワークは、個別のビデオと言語のエンコーダーを利用し、微調整中にのみタスク固有のクロスモーダル情報を学習するため、統合システムの開発が制限されます。
この研究では、クロスモーダル融合をビデオと言語のバックボーンに直接組み込むことで、前世代から大幅に改善された第 2 世代の自己中心的なビデオ言語事前トレーニング (EgoVLPv2) を導入します。
EgoVLPv2 は、事前トレーニング中に強力なビデオテキスト表現を学習し、クロスモーダル アテンション モジュールを再利用して、柔軟かつ効率的な方法でさまざまな下流タスクをサポートし、微調整コストを削減します。
さらに、私たちが提案するバックボーン戦略での融合は、追加の融合固有のレイヤーを積み重ねるよりも軽量で計算効率が優れています。
幅広い VL タスクに関する広範な実験により、すべてのダウンストリームにわたって強力なベースラインにわたって一貫した最先端のパフォーマンスを達成することにより、EgoVLPv2 の有効性が実証されました。
私たちのプロジェクト ページは https://shramanpramanick.github.io/EgoVLPv2/ にあります。
要約(オリジナル)
Video-language pre-training (VLP) has become increasingly important due to its ability to generalize to various vision and language tasks. However, existing egocentric VLP frameworks utilize separate video and language encoders and learn task-specific cross-modal information only during fine-tuning, limiting the development of a unified system. In this work, we introduce the second generation of egocentric video-language pre-training (EgoVLPv2), a significant improvement from the previous generation, by incorporating cross-modal fusion directly into the video and language backbones. EgoVLPv2 learns strong video-text representation during pre-training and reuses the cross-modal attention modules to support different downstream tasks in a flexible and efficient manner, reducing fine-tuning costs. Moreover, our proposed fusion in the backbone strategy is more lightweight and compute-efficient than stacking additional fusion-specific layers. Extensive experiments on a wide range of VL tasks demonstrate the effectiveness of EgoVLPv2 by achieving consistent state-of-the-art performance over strong baselines across all downstream. Our project page can be found at https://shramanpramanick.github.io/EgoVLPv2/.
arxiv情報
著者 | Shraman Pramanick,Yale Song,Sayan Nag,Kevin Qinghong Lin,Hardik Shah,Mike Zheng Shou,Rama Chellappa,Pengchuan Zhang |
発行日 | 2023-07-11 17:50:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google