Mining Cross-Person Cues for Body-Part Interactiveness Learning in HOI Detection

要約

人間と物体の相互作用(HOI)の検出は、活動の理解において重要な役割を果たします。
大幅な進歩が見られましたが、インタラクティブ性の学習はHOI検出において依然として困難な問題です。既存の方法では通常、冗長なネガティブH-Oペアの提案が生成され、インタラクティブペアを効果的に抽出できません。
インタラクティブ性は全身レベルと部分レベルの両方で研究されており、H-Oペアリングを容易にしますが、以前の作品は対象者に一度だけ焦点を合わせ(つまり、ローカルの視点で)、他の人の情報を見落としています。
この論文では、複数の人の体の部分を同時に比較することで、より有用で補足的なインタラクティブ性の手がかりが得られると主張します。
とはいえ、グローバルな視点から身体部分の相互作用を学ぶために:対象者の身体部分の相互作用を分類するとき、視覚的な手がかりは自分自身だけでなく、画像内の他の人からも探求されます。
私たちは、自己注意に基づいて身体部分の顕著性マップを作成し、人を超えた有益な手がかりをマイニングし、すべての身体部分間の全体的な関係を学習します。
広く使用されているベンチマークHICO-DETおよびV-COCOで提案された方法を評価します。
私たちの新しい視点で、全体的なグローバル-ローカルの身体部分のインタラクティブ性学習は、最先端のものよりも大幅な改善を実現します。
私たちのコードはhttps://github.com/enlighten0707/Body-Part-Map-for-Interactivenessで入手できます。

要約(オリジナル)

Human-Object Interaction (HOI) detection plays a crucial role in activity understanding. Though significant progress has been made, interactiveness learning remains a challenging problem in HOI detection: existing methods usually generate redundant negative H-O pair proposals and fail to effectively extract interactive pairs. Though interactiveness has been studied in both whole body- and part- level and facilitates the H-O pairing, previous works only focus on the target person once (i.e., in a local perspective) and overlook the information of the other persons. In this paper, we argue that comparing body-parts of multi-person simultaneously can afford us more useful and supplementary interactiveness cues. That said, to learn body-part interactiveness from a global perspective: when classifying a target person’s body-part interactiveness, visual cues are explored not only from herself/himself but also from other persons in the image. We construct body-part saliency maps based on self-attention to mine cross-person informative cues and learn the holistic relationships between all the body-parts. We evaluate the proposed method on widely-used benchmarks HICO-DET and V-COCO. With our new perspective, the holistic global-local body-part interactiveness learning achieves significant improvements over state-of-the-art. Our code is available at https://github.com/enlighten0707/Body-Part-Map-for-Interactiveness.

arxiv情報

著者 Xiaoqian Wu,Yong-Lu Li,Xinpeng Liu,Junyi Zhang,Yuzhe Wu,Cewu Lu
発行日 2022-07-28 15:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク