要約
ビデオ表現学習は、各文が共通の特徴空間でペアのビデオ クリップに近づくようにトレーニングされるゼロ ショット転送のビデオ テキスト事前トレーニングで成功しています。
長い動画の場合、文章が動画のさまざまなセグメントを説明する説明の段落が与えられた場合、すべての文章とクリップのペアを一致させることによって、段落と動画全体が暗黙的に整列されます。
ただし、このようなユニットレベルの比較では、グローバルな時間的コンテキストが無視される可能性があり、必然的に一般化能力が制限されます。
この論文では、完全なビデオと段落を明示的に比較するための対照学習フレームワーク TempCLR を提案します。
ビデオ/段落は一連のクリップ/文として定式化されるため、それらの時間的順序の制約の下で、動的タイム ワーピングを使用して、文とクリップのペアの最小累積コストをシーケンス レベルの距離として計算します。
時間のダイナミクスを調査するために、ビデオ クリップを w.r.t.
一時的な粒度。
次に、クリップ/センテンスの表現を取得します。これにより、時間情報が認識され、シーケンスのアライメントが容易になります。
ビデオと段落の事前トレーニングに加えて、私たちのアプローチは、ビデオ インスタンス間のマッチングを一般化することもできます。
ビデオの取得、アクション ステップのローカリゼーション、少数ショット アクションの認識に関するアプローチを評価し、3 つのタスクすべてで一貫したパフォーマンスの向上を達成します。
アプローチの設計を正当化するために、詳細なアブレーション研究が提供されています。
要約(オリジナル)
Video representation learning has been successful in video-text pre-training for zero-shot transfer, where each sentence is trained to be close to the paired video clips in a common feature space. For long videos, given a paragraph of description where the sentences describe different segments of the video, by matching all sentence-clip pairs, the paragraph and the full video are aligned implicitly. However, such unit-level comparison may ignore global temporal context, which inevitably limits the generalization ability. In this paper, we propose a contrastive learning framework TempCLR to compare the full video and the paragraph explicitly. As the video/paragraph is formulated as a sequence of clips/sentences, under the constraint of their temporal order, we use dynamic time warping to compute the minimum cumulative cost over sentence-clip pairs as the sequence-level distance. To explore the temporal dynamics, we break the consistency of temporal succession by shuffling video clips w.r.t. temporal granularity. Then, we obtain the representations for clips/sentences, which perceive the temporal information and thus facilitate the sequence alignment. In addition to pre-training on the video and paragraph, our approach can also generalize on the matching between video instances. We evaluate our approach on video retrieval, action step localization, and few-shot action recognition, and achieve consistent performance gain over all three tasks. Detailed ablation studies are provided to justify the approach design.
arxiv情報
著者 | Yuncong Yang,Jiawei Ma,Shiyuan Huang,Long Chen,Xudong Lin,Guangxing Han,Shih-Fu Chang |
発行日 | 2023-03-30 01:42:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google