Relational Context Learning for Human-Object Interaction Detection

要約

タイトル:人物-物体相互作用検出のための関係的文脈学習
要約:人物-物体相互作用検出においては、最近の最先端の手法は、人物-物体ペア検出と相互作用分類のために2つのデコーダブランチを持つトランスフォーマーアーキテクチャに基づいている。しかし、このような分離されたトランスフォーマーは、ブランチ間の不十分な文脈交換から悩まされ、関係推論における文脈情報が不足し、HOIインスタンスを発見するには重要である。本研究では、人、物体、およびインタラクショントークンの単項、ペアワイズ、および三項関係を使用して、三つのデコーダブランチ間で豊富な文脈交換を実現するマルチプレックス関係ネットワーク(MUREN)を提案する。提案手法は、包括的な関係的文脈を学習し、HOIインスタンスを発見するために、HOI検出の標準ベンチマークであるHICO-DETとV-COCOで最先端の性能を達成している。

要点:

– 最近のHOI検出手法はトランスフォーマーアーキテクチャを使用している。
– トランスフォーマーは、人物-物体ペア検出と相互作用分類のために2つのデコーダブランチを使用する。
– 分離されたトランスフォーマーは、ブランチ間の不十分な文脈交換から悩まされ、関係推論における文脈情報が不足することがある。
– この研究では、マルチプレックス関係ネットワーク(MUREN)を提案することで、豊富な文脈交換を実現し、関係的な推論に必要な文脈情報を学習することができる。
– 提案手法は、HOI検出の二つの標準ベンチマークであるHICO-DETとV-COCOの性能で最先端を達成する。

要約(オリジナル)

Recent state-of-the-art methods for HOI detection typically build on transformer architectures with two decoder branches, one for human-object pair detection and the other for interaction classification. Such disentangled transformers, however, may suffer from insufficient context exchange between the branches and lead to a lack of context information for relational reasoning, which is critical in discovering HOI instances. In this work, we propose the multiplex relation network (MUREN) that performs rich context exchange between three decoder branches using unary, pairwise, and ternary relations of human, object, and interaction tokens. The proposed method learns comprehensive relational contexts for discovering HOI instances, achieving state-of-the-art performance on two standard benchmarks for HOI detection, HICO-DET and V-COCO.

arxiv情報

著者 Sanghyun Kim,Deunsol Jung,Minsu Cho
発行日 2023-04-11 06:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク