Human Action Recognition in Still Images Using ConViT

要約

画像のさまざまな部分間の関係を理解することは、オブジェクト認識、シーン理解、画像分類などのさまざまなアプリケーションにおいて重要です。
畳み込みニューラル ネットワーク (CNN) は物体の分類と検出において優れた結果を示しているにもかかわらず、人間の行動認識 (HAR) において重要な要素である、画像の異なる部分間の関係を抽出する機能が欠けています。
この問題に対処するために、この論文では、Vision Transformer (ViT) を使用する畳み込み層のように機能する新しいモジュールを提案します。
提案されたモデルでは、Vision Transformer は、画像のさまざまな部分間の関係を効果的に抽出できるようにすることで、さまざまなタスクで畳み込みニューラル ネットワークを補完できます。
提案したモデルは単純な CNN と比較して、画像の意味のある部分を抽出し、誤解を招く部分を抑制できることが示されています。
提案されたモデルは、Stanford40 および PASCAL VOC 2012 アクション データセットで評価され、それぞれ 95.5% の平均平均精度 (mAP) と 91.5% の mAP 結果を達成しました。これは、他の最先端の方法と比較して有望です。

要約(オリジナル)

Understanding the relationship between different parts of an image is crucial in a variety of applications, including object recognition, scene understanding, and image classification. Despite the fact that Convolutional Neural Networks (CNNs) have demonstrated impressive results in classifying and detecting objects, they lack the capability to extract the relationship between different parts of an image, which is a crucial factor in Human Action Recognition (HAR). To address this problem, this paper proposes a new module that functions like a convolutional layer that uses Vision Transformer (ViT). In the proposed model, the Vision Transformer can complement a convolutional neural network in a variety of tasks by helping it to effectively extract the relationship among various parts of an image. It is shown that the proposed model, compared to a simple CNN, can extract meaningful parts of an image and suppress the misleading parts. The proposed model has been evaluated on the Stanford40 and PASCAL VOC 2012 action datasets and has achieved 95.5% mean Average Precision (mAP) and 91.5% mAP results, respectively, which are promising compared to other state-of-the-art methods.

arxiv情報

著者 Seyed Rohollah Hosseyni,Sanaz Seyedin,Hasan Taheri
発行日 2024-01-11 11:17:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク