Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning

要約

ヒューマン オブジェクト インタラクション (HOI) 検出は、人間中心のシーンの理解において重要な役割を果たし、多くの視覚タスクの基本的な構成要素として機能します。
HOI 検出のための一般化可能でスケーラブルな戦略の 1 つは、弱い監視を使用して、画像レベルの注釈のみから学習することです。
これは、あいまいな人間とオブジェクトの関連付け、HOI を検出するための大きな検索スペース、および非常にノイズの多いトレーニング信号のために、本質的に困難です。
これらの課題に対処するための有望な戦略は、大規模な事前トレーニング済みモデル (CLIP など) からの知識を活用することですが、直接的な知識蒸留戦略~\citep{liao2022gen} は、教師が弱い設定ではうまく機能しません。
対照的に、画像レベルと HOI インスタンス レベルの両方で事前知識を組み込むことができる CLIP ガイド付き HOI 表現を開発し、誤った人間とオブジェクトの関連付けを排除するための独学のメカニズムを採用します。
HICO-DET と V-COCO の実験結果は、私たちの方法が以前の研究よりもかなり優れていることを示しており、HOI 表現の有効性を示しています。

要約(オリジナル)

Human object interaction (HOI) detection plays a crucial role in human-centric scene understanding and serves as a fundamental building-block for many vision tasks. One generalizable and scalable strategy for HOI detection is to use weak supervision, learning from image-level annotations only. This is inherently challenging due to ambiguous human-object associations, large search space of detecting HOIs and highly noisy training signal. A promising strategy to address those challenges is to exploit knowledge from large-scale pretrained models (e.g., CLIP), but a direct knowledge distillation strategy~\citep{liao2022gen} does not perform well on the weakly-supervised setting. In contrast, we develop a CLIP-guided HOI representation capable of incorporating the prior knowledge at both image level and HOI instance level, and adopt a self-taught mechanism to prune incorrect human-object associations. Experimental results on HICO-DET and V-COCO show that our method outperforms the previous works by a sizable margin, showing the efficacy of our HOI representation.

arxiv情報

著者 Bo Wan,Yongfei Liu,Desen Zhou,Tinne Tuytelaars,Xuming He
発行日 2023-03-02 14:41:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク