Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation

要約

DETR は、シーン グラフ生成 (SGG) のための簡素化された 1 段階のフレームワークを導入します。
ただし、DETR ベースの SGG モデルは 2 つの課題に直面しています。i) 各画像に含まれる関係注釈が通常 10 未満であるため、監視がまばらですが、モデルでは 100 を超える関係クエリが使用されます。
この疎性は、トレーニング中に各グランド トゥルース関係が 1 つのクエリのみに割り当てられるために発生します。
ii) 偽陰性サンプル。これは、1 つのグラウンド トゥルース関係に、類似した一致スコアを持つ複数のクエリがある可能性があるためです。
これらの準最適に一致したクエリは単純にネガティブ サンプルとして扱われるため、貴重な監視信号が失われます。
これに対応するために、新しいハイブリッド関係割り当てを採用した 1 段階の SGG 手法である Hydra-SGG を考案しました。
この割り当ては、1 対 1 の関係割り当てと、新しく導入された IoU ベースの 1 対多の関係割り当てを組み合わせたものです。
具体的には、各グランド トゥルースは、IoU の高いサブジェクト/オブジェクト ボックスを備えた複数のリレーション クエリに割り当てられます。
このハイブリッド関係割り当てにより、ポジティブなトレーニング サンプルの数が増加し、まばらな監視が軽減されます。
さらに、関係クエリに対する自己注意が重複した関係予測を減らすのに役立つことを初めて経験的に示しました。
したがって、我々は、セルフアテンション層を持たないパラメータ共有補助デコーダである Hydra Branch を提案します。
この設計は、異なるクエリが同じ関係を予測できるようにすることで、1 対多の関係割り当てを促進します。
Hydra-SGG は、VG150 で 10.6 mR@20 および 16.0 mR@50 という最先端のパフォーマンスを達成しながら、必要なトレーニング エポックは 12 のみです。
また、Open Images V6 および GQA に関する新しい最先端技術も確立されています。

要約(オリジナル)

DETR introduces a simplified one-stage framework for scene graph generation (SGG). However, DETR-based SGG models face two challenges: i) Sparse supervision, as each image typically contains fewer than 10 relation annotations, while the models employ over 100 relation queries. This sparsity arises because each ground truth relation is assigned to only one single query during training. ii) False negative samples, since one ground truth relation may have multiple queries with similar matching scores. These suboptimally matched queries are simply treated as negative samples, causing the loss of valuable supervisory signals. As a response, we devise Hydra-SGG, a one-stage SGG method that adopts a new Hybrid Relation Assignment. This assignment combines a One-to-One Relation Assignment with a newly introduced IoU-based One-to-Many Relation Assignment. Specifically, each ground truth is assigned to multiple relation queries with high IoU subject-object boxes. This Hybrid Relation Assignment increases the number of positive training samples, alleviating sparse supervision. Moreover, we, for the first time, empirically show that self-attention over relation queries helps reduce duplicated relation predictions. We, therefore, propose Hydra Branch, a parameter-sharing auxiliary decoder without a self-attention layer. This design promotes One-to-Many Relation Assignment by enabling different queries to predict the same relation. Hydra-SGG achieves state-of-the-art performance with 10.6 mR@20 and 16.0 mR@50 on VG150, while only requiring 12 training epochs. It also sets a new state-of-the-art on Open Images V6 and and GQA.

arxiv情報

著者 Minghan Chen,Guikun Chen,Wenguan Wang,Yi Yang
発行日 2024-09-16 13:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク