要約
パノプティック シーン グラフ生成 (PSG) には、オブジェクトの検出と、それらの対応する関係 (述語) の予測が含まれます。
ただし、偏った述語アノテーションの存在は、異なる述語間で明確な決定境界を確立する能力を妨げるため、PSG モデルにとって大きな課題となります。
この問題は、PSG モデルの実用性と現実世界への適用性を大幅に妨げます。
上記の本質的なバイアスに対処するために、各主語と目的語のペア (ドメイン) 内の述語予測リスクを測定することによって潜在的にバイアスのあるアノテーションを推測し、不変の述語表現の埋め込みを学習することによってバイアスのあるアノテーションを一貫したアノテーションに適応的に転送する新しいフレームワークを提案します。
実験の結果、私たちの方法がベンチマーク モデルのパフォーマンスを大幅に向上させ、新しい最先端のパフォーマンスを達成し、PSG データセットに対して優れた一般化と有効性を示すことが示されました。
要約(オリジナル)
Panoptic Scene Graph Generation (PSG) involves the detection of objects and the prediction of their corresponding relationships (predicates). However, the presence of biased predicate annotations poses a significant challenge for PSG models, as it hinders their ability to establish a clear decision boundary among different predicates. This issue substantially impedes the practical utility and real-world applicability of PSG models. To address the intrinsic bias above, we propose a novel framework to infer potentially biased annotations by measuring the predicate prediction risks within each subject-object pair (domain), and adaptively transfer the biased annotations to consistent ones by learning invariant predicate representation embeddings. Experiments show that our method significantly improves the performance of benchmark models, achieving a new state-of-the-art performance, and shows great generalization and effectiveness on PSG dataset.
arxiv情報
| 著者 | Li Li,You Qin,Wei Ji,Yuxiao Zhou,Roger Zimmermann |
| 発行日 | 2023-10-09 17:03:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google