Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction Detection

要約

最近の高性能な人間と物体の相互作用(HOI)検出技術は、Transformerベースの物体検出器(つまり、DETR)の影響を強く受けています。
それにもかかわらず、それらのほとんどは、パラメトリックインタラクションクエリをバニラトランスフォーマーを介して一連のHOI予測に1段階で直接マッピングします。
これにより、相互作用の相互作用または相互作用内の構造が十分に活用されなくなります。
この作業では、HOI検出用に、新しいTransformerスタイルのHOI検出器、つまり、Structure-aware Transformer over Interaction Proposals(STIP)を設計します。
このような設計は、HOIセット予測のプロセスを2つの後続フェーズに分解します。つまり、相互作用提案の生成が最初に実行され、次にノンパラメトリック相互作用提案が構造認識トランスフォーマーを介してHOI予測に変換されます。
構造認識Transformerは、HOI予測を強化するために、相互作用提案間の全体的な意味構造と、各相互作用提案内の人間/オブジェクトの局所的な空間構造を追加でエンコードすることにより、バニラTransformerをアップグレードします。
V-COCOおよびHICO-DETベンチマークで実施された広範な実験により、STIPの有効性が実証され、最先端のHOI検出器と比較した場合に優れた結果が報告されています。
ソースコードは\url{https://github.com/zyong812/STIP}で入手できます。

要約(オリジナル)

Recent high-performing Human-Object Interaction (HOI) detection techniques have been highly influenced by Transformer-based object detector (i.e., DETR). Nevertheless, most of them directly map parametric interaction queries into a set of HOI predictions through vanilla Transformer in a one-stage manner. This leaves rich inter- or intra-interaction structure under-exploited. In this work, we design a novel Transformer-style HOI detector, i.e., Structure-aware Transformer over Interaction Proposals (STIP), for HOI detection. Such design decomposes the process of HOI set prediction into two subsequent phases, i.e., an interaction proposal generation is first performed, and then followed by transforming the non-parametric interaction proposals into HOI predictions via a structure-aware Transformer. The structure-aware Transformer upgrades vanilla Transformer by encoding additionally the holistically semantic structure among interaction proposals as well as the locally spatial structure of human/object within each interaction proposal, so as to strengthen HOI predictions. Extensive experiments conducted on V-COCO and HICO-DET benchmarks have demonstrated the effectiveness of STIP, and superior results are reported when comparing with the state-of-the-art HOI detectors. Source code is available at \url{https://github.com/zyong812/STIP}.

arxiv情報

著者 Yong Zhang,Yingwei Pan,Ting Yao,Rui Huang,Tao Mei,Chang-Wen Chen
発行日 2022-06-13 16:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク