Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model

要約

人間とオブジェクトの相互作用 (HOI) 検出は、人間とオブジェクトのペアの位置を特定し、それらの相互作用を理解することを目的としています。
最近、2 段変圧器ベースの方法が競争力のあるパフォーマンスを実証しました。
ただし、これらの方法はオブジェクトの外観の特徴に焦点を当て、グローバルなコンテキスト情報を無視することがよくあります。
さらに、ビジュアルとテキストの埋め込みを効果的に調整するビジョン言語モデル CLIP は、ゼロショット HOI 検出において大きな可能性を示しています。
前者の事実に基づいて、ISA-HOI という名前の新しい HOI 検出器を紹介します。これは、CLIP からの知識を広範囲に活用し、視覚的特徴とテキスト的特徴の間のインタラクティブなセマンティクスを調整します。
まず、画像のグローバル コンテキストとオブジェクトのローカル特徴を抽出して、画像内のインタラクション特徴を改善します (IF)。
一方、クロスモーダル融合を通じて動詞ラベルのテキスト特徴を強化する動詞意味改善 (VSI) モジュールを提案します。
最終的に、私たちのメソッドは、はるかに少ないトレーニング エポックで HICO-DET および V-COCO ベンチマークで競合する結果を達成し、ゼロショット設定で最先端のメソッドを上回ります。

要約(オリジナル)

Human-Object Interaction (HOI) detection aims to localize human-object pairs and comprehend their interactions. Recently, two-stage transformer-based methods have demonstrated competitive performance. However, these methods frequently focus on object appearance features and ignore global contextual information. Besides, vision-language model CLIP which effectively aligns visual and text embeddings has shown great potential in zero-shot HOI detection. Based on the former facts, We introduce a novel HOI detector named ISA-HOI, which extensively leverages knowledge from CLIP, aligning interactive semantics between visual and textual features. We first extract global context of image and local features of object to Improve interaction Features in images (IF). On the other hand, we propose a Verb Semantic Improvement (VSI) module to enhance textual features of verb labels via cross-modal fusion. Ultimately, our method achieves competitive results on the HICO-DET and V-COCO benchmarks with much fewer training epochs, and outperforms the state-of-the-art under zero-shot settings.

arxiv情報

著者 Jihao Dong,Renjie Pan,Hua Yang
発行日 2024-05-24 15:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク