要約
近年、自己教師付き表現学習の進歩により、ラベル付きデータに依存することなく、より効率的で頑健なモデル性能が実現されている。しかし、ほとんどの研究は画像に焦点を当てたものであり、動画や、より強力な帰納的バイアスを活用できるマルチビュー動画に焦点を当てたものはほとんどない。本論文では、マルチビュービデオの表現学習のための新しい手法を提案し、ホモグラフィーの等価性(HomE)を維持するために表現空間を明示的にモデル化する。本手法は、異なるビュー間の暗黙のマッピングを学習し、最終的に、隣接するビュー間のホモグラフィー関係を維持する表現空間を実現する。本手法は、アクション認識と歩行者意思予測を下流タスクとして、HomE表現を評価する。アクション分類において、本手法はUCF101データセットで96.4%の3倍精度を獲得し、最先端の自己教師あり学習法よりも優れている。同様に、STIPデータセットでは、1秒先の歩行者の意図を予測することで、最先端技術を6%上回り、歩行者の行動(横断か非交差か)分類でも91.2%の精度を得ることができました。コードは https://github.com/anirudhs123/HomE で公開されています。
要約(オリジナル)
Recent advances in self-supervised representation learning have enabled more efficient and robust model performance without relying on extensive labeled data. However, most works are still focused on images, with few working on videos and even fewer on multi-view videos, where more powerful inductive biases can be leveraged for self-supervision. In this work, we propose a novel method for representation learning of multi-view videos, where we explicitly model the representation space to maintain Homography Equivariance (HomE). Our method learns an implicit mapping between different views, culminating in a representation space that maintains the homography relationship between neighboring views. We evaluate our HomE representation via action recognition and pedestrian intent prediction as downstream tasks. On action classification, our method obtains 96.4% 3-fold accuracy on the UCF101 dataset, better than most state-of-the-art self-supervised learning methods. Similarly, on the STIP dataset, we outperform the state-of-the-art by 6% for pedestrian intent prediction one second into the future while also obtaining an accuracy of 91.2% for pedestrian action (cross vs. not-cross) classification. Code is available at https://github.com/anirudhs123/HomE.
arxiv情報
著者 | Anirudh Sriram,Adrien Gaidon,Jiajun Wu,Juan Carlos Niebles,Li Fei-Fei,Ehsan Adeli |
発行日 | 2023-06-02 15:37:43+00:00 |
arxivサイト | arxiv_id(pdf) |