要約
ビデオテキストの検索は、ビデオのパーソナライズされた不適切なテキストの説明によって引き起こされる情報の不一致に巻き込まれています。
2つのモダリティ間の実質的な情報のギャップは、効果的なクロスモーダル表現アラインメントを妨げ、曖昧な検索結果をもたらします。
テキストの表現を拡大するためにテキストの書き換え方法が提案されていますが、テキスト表現スペースが不十分なセマンティックエンリッチメントでほとんど拡張されていないため、モダリティギャップは依然として重要なままです。
作成されたキャプションの合理性と完全性を確保するには、作成されたプロンプトが不可欠です。
したがって、このペーパーでは、発現品質を改善し、自己学習を通じて拡張キャプションでの経験主義を軽減する自動キャプション強化方法を提案します。アドディションでは、専門化されたキャプション選択メカニズムが設計され、各ビデオの拡張キャプションをカスタマイズするように導入され、キャプションの増強の利用可能性をさらに調査することができます。
レキシコン依存を回避し、パーソナライズされたマッチングの導入。
私たちの方法の優位性は、さまざまなベンチマークで最先端の結果によって検証され、特にMSR-VTTで68.5%、MSVDで68.1%、Didemoで62.0%のTop-1リコールの精度を達成します。
私たちのコードは、https://github.com/caryxiang/eca4vtrで公開されています。
要約(オリジナル)
Video-text retrieval has been stuck in the information mismatch caused by personalized and inadequate textual descriptions of videos. The substantial information gap between the two modalities hinders an effective cross-modal representation alignment, resulting in ambiguous retrieval results. Although text rewriting methods have been proposed to broaden text expressions, the modality gap remains significant, as the text representation space is hardly expanded with insufficient semantic enrichment.Instead, this paper turns to enhancing visual presentation, bridging video expression closer to textual representation via caption generation and thereby facilitating video-text matching.While multimodal large language models (mLLM) have shown a powerful capability to convert video content into text, carefully crafted prompts are essential to ensure the reasonableness and completeness of the generated captions. Therefore, this paper proposes an automatic caption enhancement method that improves expression quality and mitigates empiricism in augmented captions through self-learning.Additionally, an expertized caption selection mechanism is designed and introduced to customize augmented captions for each video, further exploring the utilization potential of caption augmentation.Our method is entirely data-driven, which not only dispenses with heavy data collection and computation workload but also improves self-adaptability by circumventing lexicon dependence and introducing personalized matching. The superiority of our method is validated by state-of-the-art results on various benchmarks, specifically achieving Top-1 recall accuracy of 68.5% on MSR-VTT, 68.1% on MSVD, and 62.0% on DiDeMo. Our code is publicly available at https://github.com/CaryXiang/ECA4VTR.
arxiv情報
著者 | Baoyao Yang,Junxiang Chen,Wanyun Li,Wenbin Yao,Yang Zhou |
発行日 | 2025-04-08 15:45:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google