要約
アドホック テキスト クエリによってラベルのないビデオを取得することを目的としたテキストからビデオへの取得 (T2VR) では、CLIP ベースの方法が主流です。
効率的でコンパクトな CLIP4Clip と比較すると、最先端のモデルは、きめ細かいクロスモーダル機能の相互作用とマッチングによってビデオとテキストの類似性を計算する傾向があり、大規模な T2VR に対するスケーラビリティに疑問が生じます。
効率的な T2VR のために、CLIP4Clip ベースの学生ネットワークが X-CLIP、TS2-Net、X-Pool などのより高度で計算量の多いモデルから学習できるように、マルチグレイン教育を備えた TeachCLIP を提案します。
学生の学習能力を向上させるために、Attentional Frame-Feature Aggregation (AFA) ブロックを追加します。これは、設計により、取得段階で余分なストレージ/計算オーバーヘッドを追加しません。
AFA によって生成される注意深い重みはフレーム レベルの特徴を組み合わせるために一般的に使用されますが、教師ネットワークによって推定されたフレーム テキストの関連性を模倣できる重みの新しい使用法を提案します。
このように、AFA は生徒 (教師) にきめ細かい学習 (指導) チャネルを提供します。
複数の公開データセットに対する広範な実験により、提案された方法の実行可能性が正当化されます。
要約(オリジナル)
For text-to-video retrieval (T2VR), which aims to retrieve unlabeled videos by ad-hoc textual queries, CLIP-based methods are dominating. Compared to CLIP4Clip which is efficient and compact, the state-of-the-art models tend to compute video-text similarity by fine-grained cross-modal feature interaction and matching, putting their scalability for large-scale T2VR into doubt. For efficient T2VR, we propose TeachCLIP with multi-grained teaching to let a CLIP4Clip based student network learn from more advanced yet computationally heavy models such as X-CLIP, TS2-Net and X-Pool . To improve the student’s learning capability, we add an Attentional frame-Feature Aggregation (AFA) block, which by design adds no extra storage/computation overhead at the retrieval stage. While attentive weights produced by AFA are commonly used for combining frame-level features, we propose a novel use of the weights to let them imitate frame-text relevance estimated by the teacher network. As such, AFA provides a fine-grained learning (teaching) channel for the student (teacher). Extensive experiments on multiple public datasets justify the viability of the proposed method.
arxiv情報
著者 | Kaibin Tian,Ruixiang Zhao,Hu Hu,Runquan Xie,Fengzong Lian,Zhanhui Kang,Xirong Li |
発行日 | 2023-08-02 15:22:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google