Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection

要約

ゼロショットのヒューマン オブジェクト インタラクション (HOI) 検出は、事前に定義された一連のカテゴリを超えて HOI を検出できるため、最先端のトピックとして浮上しています。
このタスクには、人間と物体のペアのインタラクティブ性を特定し、その位置を特定するだけでなく、目に見えるインタラクション カテゴリと目に見えないインタラクション カテゴリの両方を認識することも含まれます。
この論文では、条件付きマルチモーダル プロンプトを使用したゼロショット HOI 検出のための新しいフレームワーク、つまり CMMP を紹介します。
このアプローチにより、HOI 検出用に微調整された場合、CLIP などの大規模な基礎モデルの一般化が強化されます。
従来のプロンプト学習方法とは異なり、インタラクティブ性を意識した視覚特徴抽出と一般化可能なインタラクション分類のために、視覚と言語のプロンプトを分離して学習することを提案します。
具体的には、さまざまな粒度の事前知識を、入力条件付きインスタンス事前やグローバル空間パターン事前などの条件付き視覚プロンプトに統合します。
前者は、画像エンコーダが目に見える、または潜在的に見えない HOI 概念に属するインスタンスを平等に扱うことを奨励し、後者は、インタラクション下にある人間とオブジェクトの代表的な妥当な空間構成を提供します。
さらに、一貫性制約を伴う言語認識型の即時学習を採用して、大規模な基礎モデルの知識を保存し、テキスト ブランチでのより適切な一般化を可能にします。
広範な実験により、条件付きマルチモーダルプロンプトを備えた当社の検出器の有効性が実証され、さまざまなゼロショット設定の目に見えないクラスで以前の最先端の検出器を上回っています。
コードとモデルは \url{https://github.com/ltttpku/CMMP} で入手できます。

要約(オリジナル)

Zero-shot Human-Object Interaction (HOI) detection has emerged as a frontier topic due to its capability to detect HOIs beyond a predefined set of categories. This task entails not only identifying the interactiveness of human-object pairs and localizing them but also recognizing both seen and unseen interaction categories. In this paper, we introduce a novel framework for zero-shot HOI detection using Conditional Multi-Modal Prompts, namely CMMP. This approach enhances the generalization of large foundation models, such as CLIP, when fine-tuned for HOI detection. Unlike traditional prompt-learning methods, we propose learning decoupled vision and language prompts for interactiveness-aware visual feature extraction and generalizable interaction classification, respectively. Specifically, we integrate prior knowledge of different granularity into conditional vision prompts, including an input-conditioned instance prior and a global spatial pattern prior. The former encourages the image encoder to treat instances belonging to seen or potentially unseen HOI concepts equally while the latter provides representative plausible spatial configuration of the human and object under interaction. Besides, we employ language-aware prompt learning with a consistency constraint to preserve the knowledge of the large foundation model to enable better generalization in the text branch. Extensive experiments demonstrate the efficacy of our detector with conditional multi-modal prompts, outperforming previous state-of-the-art on unseen classes of various zero-shot settings. The code and models are available at \url{https://github.com/ltttpku/CMMP}.

arxiv情報

著者 Ting Lei,Shaofeng Yin,Yuxin Peng,Yang Liu
発行日 2024-08-05 14:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク