Neural-Logic Human-Object Interaction Detection

要約

一般的な Transformer ベースの HOI 検出器で利用されるインタラクション デコーダは、通常、事前に構成された人間とオブジェクトのペアを入力として受け入れます。
このようなパラダイムは顕著なパフォーマンスを達成しますが、実現可能性に欠けており、デコード中にエンティティに対する新しい組み合わせを探索することはできません。
ニューラルロジック推論とTransformerを利用してエンティティ間の実行可能な相互作用を推論する新しいHOI検出器であるLOGIC HOIを紹介します。
具体的には、バニラ Transformer の自己注意メカニズムを変更し、<人間、アクション、オブジェクト> の 3 つを推論して新しいインタラクションを構成できるようにします。
一方、そのような推論プロセスは、HOI を理解するための 2 つの重要な特性、アフォーダンス (オブジェクトが促進できる潜在的なアクション) とプロクセミック (人間とオブジェクト間の空間関係) によって導かれます。
これら 2 つのプロパティを 1 次ロジックで定式化し、それらを連続空間に定着させてアプローチの学習プロセスを制約し、パフォーマンスの向上とゼロショット汎化機能につながります。
通常およびゼロショットセットアップの両方で V-COCO および HICO-DET の LOGIC HOI を評価し、既存の方法に比べて大幅な改善を達成しました。

要約(オリジナル)

The interaction decoder utilized in prevalent Transformer-based HOI detectors typically accepts pre-composed human-object pairs as inputs. Though achieving remarkable performance, such paradigm lacks feasibility and cannot explore novel combinations over entities during decoding. We present L OGIC HOI, a new HOI detector that leverages neural-logic reasoning and Transformer to infer feasible interactions between entities. Specifically, we modify the self-attention mechanism in vanilla Transformer, enabling it to reason over the triplet and constitute novel interactions. Meanwhile, such reasoning process is guided by two crucial properties for understanding HOI: affordances (the potential actions an object can facilitate) and proxemics (the spatial relations between humans and objects). We formulate these two properties in first-order logic and ground them into continuous space to constrain the learning process of our approach, leading to improved performance and zero-shot generalization capabilities. We evaluate L OGIC HOI on V-COCO and HICO-DET under both normal and zero-shot setups, achieving significant improvements over existing methods.

arxiv情報

著者 Liulei Li,Jianan Wei,Wenguan Wang,Yi Yang
発行日 2023-11-16 11:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク