Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection

要約

ヒューマン・オブジェクト・インタラクション (HOI) 検出は、人間とオブジェクトの間の複雑なインタラクティブな関係に対処し、HOI トリプレットを予測するビジュアル モデルを必要とする、コンピューター ビジョンの難しいタスクです。
多数のインタラクションの組み合わせによってもたらされる課題にもかかわらず、ビジュアル テキストのマルチモーダルな学習の機会も提供します。
この論文では、構造化テキスト知識を組み込むことで HOI 検出を強化する体系的で統一されたフレームワーク (RmLR) を紹介します。
まず、2 段階の HOI 検出器でインタラクション情報の損失を定性的および定量的に分析し、より包括的な視覚的表現を生成するための再マイニング戦略を提案します。次に、より詳細な文レベルおよび単語レベルのアライメントと知識を設計します。
複数のインタラクションと複数のテキストの間の多対多のマッチング問題に効果的に対処するための転送戦略。これらの戦略は、複数のインタラクションが同時に発生したときに発生するマッチングの混乱の問題を軽減し、それによって位置合わせプロセスの有効性を向上させます。
最後に、テキストの知識で強化された視覚的特徴による HOI 推論により、インタラクションの理解が大幅に向上します。
実験結果は、公開ベンチマークで最先端のパフォーマンスが達成されるという私たちのアプローチの有効性を示しています。
私たちは、アプローチのさまざまなコンポーネントの効果をさらに分析し、その有効性についての洞察を提供します。

要約(オリジナル)

Human-Object Interaction (HOI) detection is a challenging computer vision task that requires visual models to address the complex interactive relationship between humans and objects and predict HOI triplets. Despite the challenges posed by the numerous interaction combinations, they also offer opportunities for multimodal learning of visual texts. In this paper, we present a systematic and unified framework (RmLR) that enhances HOI detection by incorporating structured text knowledge. Firstly, we qualitatively and quantitatively analyze the loss of interaction information in the two-stage HOI detector and propose a re-mining strategy to generate more comprehensive visual representation.Secondly, we design more fine-grained sentence- and word-level alignment and knowledge transfer strategies to effectively address the many-to-many matching problem between multiple interactions and multiple texts.These strategies alleviate the matching confusion problem that arises when multiple interactions occur simultaneously, thereby improving the effectiveness of the alignment process. Finally, HOI reasoning by visual features augmented with textual knowledge substantially improves the understanding of interactions. Experimental results illustrate the effectiveness of our approach, where state-of-the-art performance is achieved on public benchmarks. We further analyze the effects of different components of our approach to provide insights into its efficacy.

arxiv情報

著者 Yichao Cao,Xiu Su,Qingfei Tang,Feng Yang,Shan You,Xiaobo Lu,Chang Xu
発行日 2023-07-25 14:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク