TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection

要約

自然言語クエリに基づくビデオ モーメント検索 (MR) とハイライト検出 (HD) は、非常に関連性の高い 2 つのタスクであり、ビデオ内の関連するモーメントを取得し、各ビデオ クリップのハイライト スコアを取得することを目的としています。
最近、MR と HD の両方を共同で解決するための DETR ベースのネットワークの構築にいくつかの方法が取り入れられています。
これらの方法では、マルチモーダル特徴抽出と特徴対話の後に 2 つの別個のタスク ヘッドを追加するだけで、良好なパフォーマンスが実現されます。
それにもかかわらず、これらのアプローチは 2 つのタスク間の相互関係を十分に活用していません。
この論文では、MR と HD 間の固有の相反性の探索に焦点を当てた、DETR (TR-DETR) に基づくタスク相反変換器を提案します。
具体的には、まずローカルとグローバルのマルチモーダル位置合わせモジュールが構築され、さまざまなモダリティからの特徴を共有潜在空間に位置合わせします。
その後、視覚的特徴の改良が行われ、モーダルインタラクションの視覚的特徴からクエリに無関係な情報が削除されます。
最後に、MRとHD間の相反性を利用して、検索パイプラインとハイライトスコア予測プロセスを改良するタスク連携モジュールを構築します。
QVHighlights、Charades-STA、および TVSum データセットに関する包括的な実験により、TR-DETR が既存の最先端の方法よりも優れていることが実証されました。
コードは \url{https://github.com/mingyao1120/TR-DETR} で入手できます。

要約(オリジナル)

Video moment retrieval (MR) and highlight detection (HD) based on natural language queries are two highly related tasks, which aim to obtain relevant moments within videos and highlight scores of each video clip. Recently, several methods have been devoted to building DETR-based networks to solve both MR and HD jointly. These methods simply add two separate task heads after multi-modal feature extraction and feature interaction, achieving good performance. Nevertheless, these approaches underutilize the reciprocal relationship between two tasks. In this paper, we propose a task-reciprocal transformer based on DETR (TR-DETR) that focuses on exploring the inherent reciprocity between MR and HD. Specifically, a local-global multi-modal alignment module is first built to align features from diverse modalities into a shared latent space. Subsequently, a visual feature refinement is designed to eliminate query-irrelevant information from visual features for modal interaction. Finally, a task cooperation module is constructed to refine the retrieval pipeline and the highlight score prediction process by utilizing the reciprocity between MR and HD. Comprehensive experiments on QVHighlights, Charades-STA and TVSum datasets demonstrate that TR-DETR outperforms existing state-of-the-art methods. Codes are available at \url{https://github.com/mingyao1120/TR-DETR}.

arxiv情報

著者 Hao Sun,Mingyao Zhou,Wenjing Chen,Wei Xie
発行日 2024-01-05 03:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク