Blockwise Temporal-Spatial Pathway Network

要約

動画像行動認識のアルゴリズムは、空間情報だけでなく、時間的な関係も考慮する必要があるが、これは依然として困難である。我々は、複数の経路によって時間的・空間的受容野を調整できる3D-CNNベースの行動認識モデル、blockwise temporal-spatial path-way network (BTSNet)を提案する。我々は、画像認識のために空間受容野を適応的に選択する効果的な特徴量符号化のためのアーキテクチャである適応的カーネル選択に基づくモデルにヒントを得て、新しいモデルを設計した。このアプローチを時間領域に拡張し、我々のモデルは時間的およびチャネル的な注意を抽出し、様々な候補操作の情報を融合させる。評価として、提案モデルをUCF-101, HMDB-51, SVW, Epic-Kitchenデータセットでテストし、事前学習なしで良好に汎化できることを示した。また、BTSNetは時空間チャネルワイズアテンションに基づく解釈可能な可視化を行う。この可視化により、ブロックワイズ時空間経路が3次元畳み込みブロックのより良い表現をサポートすることが確認された。

要約(オリジナル)

Algorithms for video action recognition should consider not only spatial information but also temporal relations, which remains challenging. We propose a 3D-CNN-based action recognition model, called the blockwise temporal-spatial path-way network (BTSNet), which can adjust the temporal and spatial receptive fields by multiple pathways. We designed a novel model inspired by an adaptive kernel selection-based model, which is an architecture for effective feature encoding that adaptively chooses spatial receptive fields for image recognition. Expanding this approach to the temporal domain, our model extracts temporal and channel-wise attention and fuses information on various candidate operations. For evaluation, we tested our proposed model on UCF-101, HMDB-51, SVW, and Epic-Kitchen datasets and showed that it generalized well without pretraining. BTSNet also provides interpretable visualization based on spatiotemporal channel-wise attention. We confirm that the blockwise temporal-spatial pathway supports a better representation for 3D convolutional blocks based on this visualization.

arxiv情報

著者 SeulGi Hong,Min-Kook Choi
発行日 2022-08-05 08:43:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク