要約
ビデオに対する自己教師ありアプローチは、ビデオ理解タスクにおいて素晴らしい結果を示しています。
ただし、時間的自己監視を活用した初期の研究とは異なり、現在の最先端の方法は主に、時間的特徴の学習を明示的に促進しない画像領域のタスク (対照学習など) に依存しています。
既存の時間的自己監視を制限する 2 つの要因を特定します。1) タスクが単純すぎるため、トレーニングのパフォーマンスが飽和してしまいます。2) 局所的な出現統計に基づいて、高レベルの特徴の学習を妨げるショートカットを発見します。
これらの問題に対処するために、我々は、1) (クリップレベルではなく) フレームレベルの認識タスクとしての時間的自己監視のより困難な再定式化、および 2) ショートカットを軽減するための効果的な拡張戦略を提案します。
私たちのモデルは、時間的自己監視を通じてトレーニングしたトランスフォーマーを使用して、対比学習を通じて事前トレーニングされた単一ビデオ フレームの表現を拡張します。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除により、時間的自己監視を通じて学習された特徴の品質が大幅に向上することを実験的に示します。
当社の自己教師ありビデオ手法の一般化機能は、ビデオ検索、アクション分類、ビデオ属性認識 (オブジェクトやシーンなど) を含む、幅広い高レベルの意味論的タスクにおける最先端のパフォーマンスによって証明されています。
識別)、ビデオ オブジェクトのセグメンテーションや姿勢追跡などの低レベルの時間的対応タスクも含まれます。
さらに、私たちの方法を通じて学習されたビデオ表現は、入力摂動に対するロバスト性が向上していることを示します。
要約(オリジナル)
Self-supervised approaches for video have shown impressive results in video understanding tasks. However, unlike early works that leverage temporal self-supervision, current state-of-the-art methods primarily rely on tasks from the image domain (e.g., contrastive learning) that do not explicitly promote the learning of temporal features. We identify two factors that limit existing temporal self-supervision: 1) tasks are too simple, resulting in saturated training performance, and 2) we uncover shortcuts based on local appearance statistics that hinder the learning of high-level features. To address these issues, we propose 1) a more challenging reformulation of temporal self-supervision as frame-level (rather than clip-level) recognition tasks and 2) an effective augmentation strategy to mitigate shortcuts. Our model extends a representation of single video frames, pre-trained through contrastive learning, with a transformer that we train through temporal self-supervision. We demonstrate experimentally that our more challenging frame-level task formulations and the removal of shortcuts drastically improve the quality of features learned through temporal self-supervision. The generalization capability of our self-supervised video method is evidenced by its state-of-the-art performance in a wide range of high-level semantic tasks, including video retrieval, action classification, and video attribute recognition (such as object and scene identification), as well as low-level temporal correspondence tasks like video object segmentation and pose tracking. Additionally, we show that the video representations learned through our method exhibit increased robustness to the input perturbations.
arxiv情報
著者 | Ishan Rajendrakumar Dave,Simon Jenni,Mubarak Shah |
発行日 | 2023-12-20 13:20:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google