要約
この論文では、ビデオの表現学習について概説します。
逐次映像データに対する最近の時空間特徴量学習手法を分類し、一般的な映像解析における長所と短所を比較します。
ビデオに効果的な機能を構築することは、ビデオの分析と理解を伴うコンピューター ビジョン タスクにおける基本的な問題です。
既存の特徴は一般に、空間的特徴と時間的特徴に分類できます。
照明、遮蔽、視界、背景の変化の下でのそれらの有効性について議論します。
最後に、既存のディープビデオ表現学習の研究に残っている課題について説明します。
要約(オリジナル)
This paper provides a review on representation learning for videos. We classify recent spatiotemporal feature learning methods for sequential visual data and compare their pros and cons for general video analysis. Building effective features for videos is a fundamental problem in computer vision tasks involving video analysis and understanding. Existing features can be generally categorized into spatial and temporal features. Their effectiveness under variations of illumination, occlusion, view and background are discussed. Finally, we discuss the remaining challenges in existing deep video representation learning studies.
arxiv情報
著者 | Elham Ravanbakhsh,Yongqing Liang,J. Ramanujam,Xin Li |
発行日 | 2024-05-10 16:20:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google