要約
一般的な Transformer ベースの HOI 検出器で利用されるインタラクション デコーダは、通常、事前に構成された人間とオブジェクトのペアを入力として受け入れます。
このようなパラダイムは顕著なパフォーマンスを達成しますが、実現可能性に欠けており、デコード中にエンティティに対する新しい組み合わせを探索することはできません。
ニューラルロジック推論とTransformerを利用してエンティティ間の実行可能な相互作用を推論する新しいHOI検出器であるLOGIC HOIを紹介します。
具体的には、バニラ Transformer の自己注意メカニズムを変更し、<人間、アクション、オブジェクト> の 3 つを推論して新しいインタラクションを構成できるようにします。
一方、そのような推論プロセスは、HOI を理解するための 2 つの重要な特性、アフォーダンス (オブジェクトが促進できる潜在的なアクション) とプロクセミック (人間とオブジェクト間の空間関係) によって導かれます。
これら 2 つのプロパティを 1 次ロジックで定式化し、それらを連続空間に定着させてアプローチの学習プロセスを制約し、パフォーマンスの向上とゼロショット汎化機能につながります。
通常およびゼロショットセットアップの両方で V-COCO および HICO-DET の LOGIC HOI を評価し、既存の方法に比べて大幅な改善を達成しました。
要約(オリジナル)
The interaction decoder utilized in prevalent Transformer-based HOI detectors typically accepts pre-composed human-object pairs as inputs. Though achieving remarkable performance, such paradigm lacks feasibility and cannot explore novel combinations over entities during decoding. We present L OGIC HOI, a new HOI detector that leverages neural-logic reasoning and Transformer to infer feasible interactions between entities. Specifically, we modify the self-attention mechanism in vanilla Transformer, enabling it to reason over the
arxiv情報
著者 | Liulei Li,Jianan Wei,Wenguan Wang,Yi Yang |
発行日 | 2023-11-16 11:47:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google