要約
対照的言語イメージ事前学習(CLIP)は広く研究され、多くのアプリケーションに応用されている。しかし、事前学習では簡潔な要約テキストが重視されるため、CLIPは長い説明を理解することができない。特に、動画には詳細な内容が多く含まれるため、この問題は深刻である。本論文では、動画CLIPモデルの長文理解能力を引き出すことを目的としたVideoCLIP-XL(eXtra Length)モデルを提案する。まず、自動データ収集システムを構築し、VIdeoと長文説明文のペアを含む大規模なVILD事前学習データセットを収集する。次に、長文記述能力を拡張しつつ、特徴空間の分布をより良く学習するために、テキスト類似誘導型一次成分マッチング(TPCM)を提案する。また、さらなる理解向上のために、2つの新しいタスク、すなわち、詳細認識記述ランキング(DDR)と幻覚認識記述ランキング(HDR)を導入する。最後に、長秒時記述能力をより包括的に評価するために、長秒時ビデオ記述ランキング(LVDR)ベンチマークを構築する。短い説明文と長い説明文の両方で広く使われているテキストビデオ検索ベンチマークと我々のLVDRベンチマークの広範な実験結果は、我々の手法の有効性を完全に実証することができる。
要約(オリジナル)
Contrastive Language-Image Pre-training (CLIP) has been widely studied and applied in numerous applications. However, the emphasis on brief summary texts during pre-training prevents CLIP from understanding long descriptions. This issue is particularly acute regarding videos given that videos often contain abundant detailed contents. In this paper, we propose the VideoCLIP-XL (eXtra Length) model, which aims to unleash the long-description understanding capability of video CLIP models. Firstly, we establish an automatic data collection system and gather a large-scale VILD pre-training dataset with VIdeo and Long-Description pairs. Then, we propose Text-similarity-guided Primary Component Matching (TPCM) to better learn the distribution of feature space while expanding the long description capability. We also introduce two new tasks namely Detail-aware Description Ranking (DDR) and Hallucination-aware Description Ranking (HDR) for further understanding improvement. Finally, we construct a Long Video Description Ranking (LVDR) benchmark for evaluating the long-description capability more comprehensively. Extensive experimental results on widely-used text-video retrieval benchmarks with both short and long descriptions and our LVDR benchmark can fully demonstrate the effectiveness of our method.
arxiv情報
著者 | Jiapeng Wang,Chengyu Wang,Kunzhe Huang,Jun Huang,Lianwen Jin |
発行日 | 2024-10-04 16:10:38+00:00 |
arxivサイト | arxiv_id(pdf) |