Orchestrating the Symphony of Prompt Distribution Learning for Human-Object Interaction Detection

要約

一般的なクエリ トランスフォーマ アーキテクチャを備えたヒューマン オブジェクト インタラクション (HOI) 検出器は、有望なパフォーマンスを達成しています。
しかし、珍しい視覚パターンを正確に識別し、曖昧な HOI を区別することは依然として困難です。
これらの困難は、多様なカテゴリ内パターンやカテゴリ間の依存関係を表現する際の従来の検出器クエリの能力が限られていることから発生する可能性があることが観察されています。
これに対処するために、Interaction Prompt Distribution Learning (InterProDa) アプローチを導入します。
InterProDa は、複数のソフト プロンプトのセットを学習し、さまざまなプロンプトからカテゴリの分布を推定します。
次に、HOI クエリとカテゴリ分布を組み込んで、ほぼ無限のカテゴリ内ダイナミクスと普遍的なカテゴリ間の関係を表現できるようにします。
当社の InterProDa 検出器は、HICO-DET および vcoco ベンチマークで競争力のあるパフォーマンスを実証します。
さらに、私たちの方法はほとんどの変圧器ベースの HOI 検出器に統合でき、最小限の追加パラメータで性能を大幅に向上させることができます。

要約(オリジナル)

Human-object interaction (HOI) detectors with popular query-transformer architecture have achieved promising performance. However, accurately identifying uncommon visual patterns and distinguishing between ambiguous HOIs continue to be difficult for them. We observe that these difficulties may arise from the limited capacity of traditional detector queries in representing diverse intra-category patterns and inter-category dependencies. To address this, we introduce the Interaction Prompt Distribution Learning (InterProDa) approach. InterProDa learns multiple sets of soft prompts and estimates category distributions from various prompts. It then incorporates HOI queries with category distributions, making them capable of representing near-infinite intra-category dynamics and universal cross-category relationships. Our InterProDa detector demonstrates competitive performance on HICO-DET and vcoco benchmarks. Additionally, our method can be integrated into most transformer-based HOI detectors, significantly enhancing their performance with minimal additional parameters.

arxiv情報

著者 Mingda Jia,Liming Zhao,Ge Li,Yun Zheng
発行日 2024-12-11 16:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク