Focusing on what to decode and what to train: Efficient Training with HOI Split Decoders and Specific Target Guided DeNoising

要約

最近の 1 段階トランスベースの手法は、DETR の検出を活用することで、人体と物体間のインタラクション検出 (HOI) タスクにおいて顕著な成果を上げています。
ただし、現在の方法ではオブジェクト デコーダの検出ターゲットがリダイレクトされ、ボックス ターゲットがクエリの埋め込みから明示的に分離されていないため、長くてハードなトレーニングが必要になります。
さらに、予測された HOI インスタンスをグラウンドトゥルースと照合することは物体検出よりも困難であり、物体検出からトレーニング戦略を単純に適応させるだけではトレーニングがより困難になります。
人間と物体の検出の間のあいまいさを解消し、予測の負担を分担するために、主語デコーダ、オブジェクトデコーダ、動詞デコーダで構成される新しい 1 段階フレームワーク (SOV) を提案します。
さらに、学習可能なオブジェクトと動詞ラベルの埋め込みを活用してトレーニングをガイドし、トレーニングの収束を加速する、新しい特定ターゲット誘導 (STG) ノイズ除去戦略を提案します。
さらに、推論部分では、学習可能なラベル埋め込みからクエリ埋め込みを初期化することで、ラベル固有の情報がデコーダーに直接供給されます。
追加の機能や事前の言語知識がなくても、私たちの方法 (SOV-STG) は、トレーニング エポックの 3 分の 1 で最先端の方法よりも高い精度を達成します。
コードは \url{https://github.com/cjw2021/SOV-STG} で入手できます。

要約(オリジナル)

Recent one-stage transformer-based methods achieve notable gains in the Human-object Interaction Detection (HOI) task by leveraging the detection of DETR. However, the current methods redirect the detection target of the object decoder, and the box target is not explicitly separated from the query embeddings, which leads to long and hard training. Furthermore, matching the predicted HOI instances with the ground-truth is more challenging than object detection, simply adapting training strategies from the object detection makes the training more difficult. To clear the ambiguity between human and object detection and share the prediction burden, we propose a novel one-stage framework (SOV), which consists of a subject decoder, an object decoder, and a verb decoder. Moreover, we propose a novel Specific Target Guided (STG) DeNoising strategy, which leverages learnable object and verb label embeddings to guide the training and accelerates the training convergence. In addition, for the inference part, the label-specific information is directly fed into the decoders by initializing the query embeddings from the learnable label embeddings. Without additional features or prior language knowledge, our method (SOV-STG) achieves higher accuracy than the state-of-the-art method in one-third of training epochs. The code is available at \url{https://github.com/cjw2021/SOV-STG}.

arxiv情報

著者 Junwen Chen,Yingcheng Wang,Keiji Yanai
発行日 2023-07-05 13:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク