Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model

要約

人間と物体のインタラクション(HOI)検出は、人間と物体のペアを特定し、そのインタラクションを理解することを目的としている。最近、2段変換ベースの手法が優れた性能を示している。しかし、これらの手法は物体の外観特徴に焦点を当てることが多く、グローバルな文脈情報を無視する。また、視覚とテキストの埋め込みを効果的に調整する視覚言語モデルCLIPは、ゼロショットHOI検出において大きな可能性を示している。前者の事実に基づき、我々はISA-HOIと名付けた新しいHOI検出器を紹介する。この検出器はCLIPからの知識を広く活用し、視覚的特徴とテキスト的特徴の間の対話的意味論を整合させる。まず、画像のグローバルコンテキストと物体のローカル特徴を抽出し、画像中のインタラクション特徴(IF)を改善する。一方、クロスモーダル融合によって動詞ラベルのテキスト特徴を向上させるために、動詞意味改善(VSI)モジュールを提案する。最終的に、我々の手法は、HICO-DETとV-COCOベンチマークにおいて、より少ない学習エポック数で競争力のある結果を達成し、ゼロショット設定において最先端技術を凌駕する。

要約(オリジナル)

Human-Object Interaction (HOI) detection aims to localize human-object pairs and comprehend their interactions. Recently, two-stage transformer-based methods have demonstrated competitive performance. However, these methods frequently focus on object appearance features and ignore global contextual information. Besides, vision-language model CLIP which effectively aligns visual and text embeddings has shown great potential in zero-shot HOI detection. Based on the former facts, We introduce a novel HOI detector named ISA-HOI, which extensively leverages knowledge from CLIP, aligning interactive semantics between visual and textual features. We first extract global context of image and local features of object to Improve interaction Features in images (IF). On the other hand, we propose a Verb Semantic Improvement (VSI) module to enhance textual features of verb labels via cross-modal fusion. Ultimately, our method achieves competitive results on the HICO-DET and V-COCO benchmarks with much fewer training epochs, and outperforms the state-of-the-art under zero-shot settings.

arxiv情報

著者 Jihao Dong,Renjie Pan,Hua Yang
発行日 2024-05-06 15:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク