Parallel Reasoning Network for Human-Object Interaction Detection

要約

Human-Object Interaction (HOI) 検出は、人間が周囲のオブジェクトとどのように相互作用するかを学習することを目的としている。これまでのHOI検出フレームワークは、予測器を用いて、人間、オブジェクト、および、それらに対応するインタラクションを同時に検出する。1つの共有予測器を用いるだけでは、インスタンスレベルの予測と関係レベルの予測という気配りのある分野を区別することができない。この問題を解決するために、我々は並列推論ネットワーク(PR-Net)と名付けた新しい変換器ベースの手法を提案する。これは、インスタンスレベルの局所化と関係レベルの理解のための2つの独立した予測器を構築するものである。前者はインスタンスの極限領域を認識することにより、インスタンスレベルの局所化に集中する予測器である。後者は関係領域の範囲を広げ、より良い関係レベルの意味理解に到達する。HICO-DETベンチマークを用いた広範な実験と分析により、我々のPR-Netがこの問題を効果的に緩和することが示された。また、HICO-DETとV-COCOのベンチマークにおいて、我々のPR-Netは競争力のある結果を得た。

要約(オリジナル)

Human-Object Interaction (HOI) detection aims to learn how human interacts with surrounding objects. Previous HOI detection frameworks simultaneously detect human, objects and their corresponding interactions by using a predictor. Using only one shared predictor cannot differentiate the attentive field of instance-level prediction and relation-level prediction. To solve this problem, we propose a new transformer-based method named Parallel Reasoning Network(PR-Net), which constructs two independent predictors for instance-level localization and relation-level understanding. The former predictor concentrates on instance-level localization by perceiving instances’ extremity regions. The latter broadens the scope of relation region to reach a better relation-level semantic understanding. Extensive experiments and analysis on HICO-DET benchmark exhibit that our PR-Net effectively alleviated this problem. Our PR-Net has achieved competitive results on HICO-DET and V-COCO benchmarks.

arxiv情報

著者 Huan Peng,Fenggang Liu,Yangguang Li,Bin Huang,Jing Shao,Nong Sang,Changxin Gao
発行日 2023-01-09 17:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク