Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation

要約

シーン グラフ生成 (SGG) タスクには、画像内のオブジェクトの検出と、オブジェクト間の関係を表す述語の予測が含まれます。
ただし、SGG ベンチマーク データセットでは、単一の述語が多様な意味論 (つまり、意味の多様性) を示す場合でも、各主語と目的語のペアには単一の述語が注釈付けされており、既存の SGG モデルは各ペアの唯一の述語を予測するようにトレーニングされています。
その結果、SGG モデルは述語に存在する可能性のある意味の多様性を見落とすことになり、偏った予測につながります。
この論文では、述語の意味的多様性の理解に基づいて不偏予測を可能にする、モデルに依存しない意味的多様性を意識した新しいプロトタイプベース学習 (DPL) フレームワークを提案します。
具体的には、DPL は、各述語がカバーする意味空間内の領域を学習して、1 つの述語が表すことができるさまざまな異なるセマンティクスを区別します。
広範な実験により、私たちが提案するモデルに依存しない DPL フレームワークが既存の SGG モデルのパフォーマンスを大幅に向上させ、述語の意味的多様性を効果的に理解できることが実証されました。

要約(オリジナル)

The scene graph generation (SGG) task involves detecting objects within an image and predicting predicates that represent the relationships between the objects. However, in SGG benchmark datasets, each subject-object pair is annotated with a single predicate even though a single predicate may exhibit diverse semantics (i.e., semantic diversity), existing SGG models are trained to predict the one and only predicate for each pair. This in turn results in the SGG models to overlook the semantic diversity that may exist in a predicate, thus leading to biased predictions. In this paper, we propose a novel model-agnostic Semantic Diversity-aware Prototype-based Learning (DPL) framework that enables unbiased predictions based on the understanding of the semantic diversity of predicates. Specifically, DPL learns the regions in the semantic space covered by each predicate to distinguish among the various different semantics that a single predicate can represent. Extensive experiments demonstrate that our proposed model-agnostic DPL framework brings significant performance improvement on existing SGG models, and also effectively understands the semantic diversity of predicates.

arxiv情報

著者 Jaehyeong Jeon,Kibum Kim,Kanghoon Yoon,Chanyoung Park
発行日 2024-07-25 12:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク