ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection

要約

タイトル:ViPLO:Human-Object Interaction DetectionのためのVision TransformerベースのPose-Conditioned Self-Loopグラフ
要約:
– HOI(Human-Object Interaction)検出は、人間とオブジェクトの間の関係を定位および推定することで、シーン理解に重要な役割を果たす。
– 2段階のHOI検出器はトレーニングと推論の効率が高いという利点があるが、旧来のバックボーンネットワークと相互作用分類器における人間のHOI知覚プロセスへの考慮の不足により、1段階法に比べて性能が低下する。
– この論文では、これらの問題を解決するために、Vision TransformerベースのPose-Conditioned Self-Loop Graph(ViPLO)を提案している。
– まず、Vision Transformerバックボーンに適した新しい特徴抽出方法であるmasking with overlapped area(MOA)モジュールを提案する。MOAモジュールは、各パッチと与えられた領域との重複領域をアテンション関数に利用し、Vision Transformerバックボーンを使用する場合の量子化の問題に対処する。
– さらに、ポーズ条件の自己ループ構造を持つグラフを設計し、人間のノードエンコーディングを人間の関節の局所特徴で更新する。これにより、分類器は特定の人間の関節に焦点を当てて交互作用のタイプを効果的に識別することができる。これはHOIの人間の知覚プロセスに着想を得ている。
– 結果として、ViPLOは2つの公開ベンチマークで最新の結果を達成し、特にHICO-DETデータセットで+2.07 mAPの性能向上を達成した。ソースコードはhttps://github.com/Jeeseung-Park/ViPLOで利用可能である。

要約(オリジナル)

Human-Object Interaction (HOI) detection, which localizes and infers relationships between human and objects, plays an important role in scene understanding. Although two-stage HOI detectors have advantages of high efficiency in training and inference, they suffer from lower performance than one-stage methods due to the old backbone networks and the lack of considerations for the HOI perception process of humans in the interaction classifiers. In this paper, we propose Vision Transformer based Pose-Conditioned Self-Loop Graph (ViPLO) to resolve these problems. First, we propose a novel feature extraction method suitable for the Vision Transformer backbone, called masking with overlapped area (MOA) module. The MOA module utilizes the overlapped area between each patch and the given region in the attention function, which addresses the quantization problem when using the Vision Transformer backbone. In addition, we design a graph with a pose-conditioned self-loop structure, which updates the human node encoding with local features of human joints. This allows the classifier to focus on specific human joints to effectively identify the type of interaction, which is motivated by the human perception process for HOI. As a result, ViPLO achieves the state-of-the-art results on two public benchmarks, especially obtaining a +2.07 mAP performance gain on the HICO-DET dataset. The source codes are available at https://github.com/Jeeseung-Park/ViPLO.

arxiv情報

著者 Jeeseung Park,Jin-Woo Park,Jong-Seok Lee
発行日 2023-04-17 09:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク