Enhanced Data Transfer Cooperating with Artificial Triplets for Scene Graph Generation

要約

この研究は、シーン グラフ生成 (SGG) のための有益なリレーショナル トリプレットのトレーニング データセットの強化に焦点を当てています。
効果的な監視が欠如しているため、現在の SGG モデル予測は、トレーニング サンプルが不十分な有益なリレーショナル トリプレットのパフォーマンスが低くなります。
したがって、我々は、Feature Space Triplet Augmentation (FSTA) と Soft Transfer という 2 つの新しいトレーニング データセット拡張モジュールを提案します。
FSTA は、リレーショナル トリプレットでオブジェクトの表現を生成するようにトレーニングされた特徴ジェネレーターを活用します。
FSTA の偏った予測ベースのサンプリングは、困難なものに焦点を当てて人工トリプレットを効率的に強化します。
さらに、ソフト転送を導入します。これは、ソフト述語ラベルを一般的なリレーショナル トリプレットに割り当てて、有益な述語クラスを効果的に監視します。
実験結果は、FSTA と Soft Transfer を統合すると、Visual Genome データセットで高いレベルの再現率と平均再現率が達成されることを示しています。
再現率の平均と平均再現率は、既存のすべてのモデルに依存しない手法の中で最高です。

要約(オリジナル)

This work focuses on training dataset enhancement of informative relational triplets for Scene Graph Generation (SGG). Due to the lack of effective supervision, the current SGG model predictions perform poorly for informative relational triplets with inadequate training samples. Therefore, we propose two novel training dataset enhancement modules: Feature Space Triplet Augmentation (FSTA) and Soft Transfer. FSTA leverages a feature generator trained to generate representations of an object in relational triplets. The biased prediction based sampling in FSTA efficiently augments artificial triplets focusing on the challenging ones. In addition, we introduce Soft Transfer, which assigns soft predicate labels to general relational triplets to make more supervisions for informative predicate classes effectively. Experimental results show that integrating FSTA and Soft Transfer achieve high levels of both Recall and mean Recall in Visual Genome dataset. The mean of Recall and mean Recall is the highest among all the existing model-agnostic methods.

arxiv情報

著者 KuanChao Chu,Satoshi Yamazaki,Hideki Nakayama
発行日 2024-06-27 16:52:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク