Saliency-Guided DETR for Moment Retrieval and Highlight Detection

要約

ビデオの瞬間の取得とハイライトの検出に対する既存のアプローチでは、テキストとビデオの特徴を効率的に調整することができず、その結果、満足のいくパフォーマンスが得られず、プロダクションでの使用が制限されます。
これに対処するために、このような調整のために設計された最近の基本的なビデオ モデルを利用する新しいアーキテクチャを提案します。
導入された Saliency-Guided Cross Attendant メカニズムとハイブリッド DETR アーキテクチャを組み合わせることで、私たちのアプローチは、モーメント検索タスクとハイライト検出タスクの両方のパフォーマンスを大幅に向上させます。
さらに改善するために、事前トレーニング用の大規模で高品質なデータセットである InterVid-MR を開発しました。
これを使用することで、私たちのアーキテクチャは QVHighlights、Charades-STA、および TACoS ベンチマークで最先端の結果を達成します。
提案されたアプローチは、ビデオ言語タスクにおけるゼロショット シナリオと微調整シナリオの両方に効率的でスケーラブルなソリューションを提供します。

要約(オリジナル)

Existing approaches for video moment retrieval and highlight detection are not able to align text and video features efficiently, resulting in unsatisfying performance and limited production usage. To address this, we propose a novel architecture that utilizes recent foundational video models designed for such alignment. Combined with the introduced Saliency-Guided Cross Attention mechanism and a hybrid DETR architecture, our approach significantly enhances performance in both moment retrieval and highlight detection tasks. For even better improvement, we developed InterVid-MR, a large-scale and high-quality dataset for pretraining. Using it, our architecture achieves state-of-the-art results on the QVHighlights, Charades-STA and TACoS benchmarks. The proposed approach provides an efficient and scalable solution for both zero-shot and fine-tuning scenarios in video-language tasks.

arxiv情報

著者 Aleksandr Gordeev,Vladimir Dokholyan,Irina Tolstykh,Maksim Kuprashevich
発行日 2024-10-02 14:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク