要約
人間動作認識 (HAR) は、ユビキタスなアプリケーションであるため、コンピューター ビジョンにおけるハイレベルで重要な研究分野です。
現在の HAR モデルの主な制限は、その複雑な構造と長いトレーニング時間です。
この論文では、HAR 向けに、TransNet と呼ばれる、シンプルでありながら多用途で効果的なエンドツーエンドの深層学習アーキテクチャを提案します。
TransNet は、複雑な 3D-CNN を 2D-CNN と 1D-CNN に分解します。2D-CNN コンポーネントと 1D-CNN コンポーネントは、それぞれビデオの空間特徴と時間パターンを抽出します。
TransNet は、その簡潔なアーキテクチャの利点を活かし、他の分野の事前トレーニング済みの最先端の 2D-CNN モデルと理想的な互換性があり、HAR タスクに提供されるように転送されます。
言い換えれば、HAR の転移学習の力と成功を自然に活用し、効率と有効性の点で大きな利点をもたらします。
広範な実験結果と最先端のモデルとの比較により、柔軟性、モデルの複雑さ、トレーニング速度、分類精度の点で、HAR で提案されている TransNet の優れたパフォーマンスが実証されています。
要約(オリジナル)
Human action recognition (HAR) is a high-level and significant research area in computer vision due to its ubiquitous applications. The main limitations of the current HAR models are their complex structures and lengthy training time. In this paper, we propose a simple yet versatile and effective end-to-end deep learning architecture, coined as TransNet, for HAR. TransNet decomposes the complex 3D-CNNs into 2D- and 1D-CNNs, where the 2D- and 1D-CNN components extract spatial features and temporal patterns in videos, respectively. Benefiting from its concise architecture, TransNet is ideally compatible with any pretrained state-of-the-art 2D-CNN models in other fields, being transferred to serve the HAR task. In other words, it naturally leverages the power and success of transfer learning for HAR, bringing huge advantages in terms of efficiency and effectiveness. Extensive experimental results and the comparison with the state-of-the-art models demonstrate the superior performance of the proposed TransNet in HAR in terms of flexibility, model complexity, training speed and classification accuracy.
arxiv情報
著者 | K. Alomar,X. Cai |
発行日 | 2023-09-13 13:34:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google