Holistic Interaction Transformer Network for Action Detection

要約

アクションとは、他の人、物、自分自身など、環境とどのように相互作用するかに関するものです。
この論文では、ほとんどの人間の行動に不可欠な、ほとんど無視されているが重要な手とポーズの情報を活用する、新しいマルチモーダルの全体的相互作用変換ネットワーク (HIT) を提案します。
提案された「HIT」ネットワークは、RGB ストリームとポーズ ストリームで構成される包括的なバイモーダル フレームワークです。
それらはそれぞれ、人、物、および手の相互作用を個別にモデル化します。
各サブネットワーク内では、個々の相互作用ユニットを選択的にマージするモダリティ内集約モジュール (IMA) が導入されています。
次に、各モダリティから得られた特徴は、Attentive Fusion Mechanism (AFM) を使用して接着されます。
最後に、一時的なコンテキストから手がかりを抽出して、キャッシュされたメモリを使用して発生するアクションをより適切に分類します。
私たちの方法は、J-HMDB、UCF101-24、および MultiSports データセットに対する以前のアプローチよりも大幅に優れています。
また、AVAでも競争力のある結果を達成しています。
コードは https://github.com/joslefaure/HIT で入手できます。

要約(オリジナル)

Actions are about how we interact with the environment, including other people, objects, and ourselves. In this paper, we propose a novel multi-modal Holistic Interaction Transformer Network (HIT) that leverages the largely ignored, but critical hand and pose information essential to most human actions. The proposed ‘HIT’ network is a comprehensive bi-modal framework that comprises an RGB stream and a pose stream. Each of them separately models person, object, and hand interactions. Within each sub-network, an Intra-Modality Aggregation module (IMA) is introduced that selectively merges individual interaction units. The resulting features from each modality are then glued using an Attentive Fusion Mechanism (AFM). Finally, we extract cues from the temporal context to better classify the occurring actions using cached memory. Our method significantly outperforms previous approaches on the J-HMDB, UCF101-24, and MultiSports datasets. We also achieve competitive results on AVA. The code will be available at https://github.com/joslefaure/HIT.

arxiv情報

著者 Gueter Josmy Faure,Min-Hung Chen,Shang-Hong Lai
発行日 2022-11-18 05:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク