要約
最近、ビデオ理解の需要が大幅に増加するにつれて、ビデオの瞬間検索とハイライト検出 (MR/HD) が脚光を浴びています。
MR/HD の主な目的は、瞬間をローカライズし、特定のテキスト クエリに対するクリップごとの一致レベル、つまり顕著性スコアを推定することです。
最近のトランスフォーマーベースのモデルはいくつかの進歩をもたらしましたが、これらの方法では特定のクエリの情報を十分に活用できないことがわかりました。
たとえば、テキスト クエリとビデオ コンテンツの間の関連性は、瞬間とその重要性を予測するときに無視されることがあります。
この問題に取り組むために、MR/HD 用に調整された検出トランスフォーマーであるクエリ依存 DETR (QD-DETR) を導入します。
トランスフォーマー アーキテクチャで与えられたクエリの取るに足らない役割を観察すると、エンコーディング モジュールはクロスアテンション レイヤーから始まり、テキスト クエリのコンテキストをビデオ表現に明示的に挿入します。
次に、クエリ情報を活用するモデルの機能を強化するために、ビデオクエリのペアを操作して、無関係なペアを生成します。
このような否定的な (無関係な) ビデオとクエリのペアは、低い顕著性スコアを生成するようにトレーニングされます。これにより、モデルはクエリとビデオのペア間の正確な一致を推定するようになります。
最後に、特定のビデオクエリペアの顕著性スコアの基準を適応的に定義する入力適応性顕著性予測子を提示します。
私たちの広範な研究により、MR/HD のクエリ依存表現を構築することの重要性が検証されています。
具体的には、QD-DETR は、QVHighlights、TVSum、および Charades-STA データセットで最先端の方法よりも優れています。
コードは github.com/wjun0830/QD-DETR で入手できます。
要約(オリジナル)
Recently, video moment retrieval and highlight detection (MR/HD) are being spotlighted as the demand for video understanding is drastically increased. The key objective of MR/HD is to localize the moment and estimate clip-wise accordance level, i.e., saliency score, to the given text query. Although the recent transformer-based models brought some advances, we found that these methods do not fully exploit the information of a given query. For example, the relevance between text query and video contents is sometimes neglected when predicting the moment and its saliency. To tackle this issue, we introduce Query-Dependent DETR (QD-DETR), a detection transformer tailored for MR/HD. As we observe the insignificant role of a given query in transformer architectures, our encoding module starts with cross-attention layers to explicitly inject the context of text query into video representation. Then, to enhance the model’s capability of exploiting the query information, we manipulate the video-query pairs to produce irrelevant pairs. Such negative (irrelevant) video-query pairs are trained to yield low saliency scores, which in turn, encourages the model to estimate precise accordance between query-video pairs. Lastly, we present an input-adaptive saliency predictor which adaptively defines the criterion of saliency scores for the given video-query pairs. Our extensive studies verify the importance of building the query-dependent representation for MR/HD. Specifically, QD-DETR outperforms state-of-the-art methods on QVHighlights, TVSum, and Charades-STA datasets. Codes are available at github.com/wjun0830/QD-DETR.
arxiv情報
著者 | WonJun Moon,Sangeek Hyun,SangUk Park,Dongchan Park,Jae-Pil Heo |
発行日 | 2023-03-24 09:32:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google