Self-Supervised Video Representation Learning via Latent Time Navigation

要約

タイトル: 潜在時間ナビゲーションによる自己教示型の動画表現学習

要約:
– この論文は、時間的関係に関連した重要な情報を失わせるために、「Enter」と「Leave」のような行動を区別できなくする、一つのビデオの異なる時間的セグメント間の類似性を最大化することを目的とした自己教示型の動画表現学習について説明しています。
– 時間的変化を表す直交基底を含む潜在表現コードの部分空間に沿って、異なるビデオセグメント間の表現の類似性を最大化するという、時間パラメータ付きのコントラスティブ学習戦略である「Latent Time Navigation(LTN)」を提案しています。
– 著者らの広範な実験分析によると、LTNによるビデオ表現の学習は、細分化された動きを捕捉するために簡素化され、細かい動きのあるタスクでのアクション分類の性能を一貫して向上させます(例えば、Toyota Smarthomeデータセット)。さらに、著者らは、Kinetics-400で事前学習されたモデルが、未知の現実世界のビデオベンチマークデータセットUCF101とHMDB51で、アクション認識において最高の性能を発揮することを示しています。

要約(オリジナル)

Self-supervised video representation learning aimed at maximizing similarity between different temporal segments of one video, in order to enforce feature persistence over time. This leads to loss of pertinent information related to temporal relationships, rendering actions such as `enter’ and `leave’ to be indistinguishable. To mitigate this limitation, we propose Latent Time Navigation (LTN), a time-parameterized contrastive learning strategy that is streamlined to capture fine-grained motions. Specifically, we maximize the representation similarity between different video segments from one video, while maintaining their representations time-aware along a subspace of the latent representation code including an orthogonal basis to represent temporal changes. Our extensive experimental analysis suggests that learning video representations by LTN consistently improves performance of action classification in fine-grained and human-oriented tasks (e.g., on Toyota Smarthome dataset). In addition, we demonstrate that our proposed model, when pre-trained on Kinetics-400, generalizes well onto the unseen real world video benchmark datasets UCF101 and HMDB51, achieving state-of-the-art performance in action recognition.

arxiv情報

著者 Di Yang,Yaohui Wang,Quan Kong,Antitza Dantcheva,Lorenzo Garattoni,Gianpiero Francesca,Francois Bremond
発行日 2023-05-10 20:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク