BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation

要約

シーン グラフ生成 (SGG) は、その構成特性により依然として困難なタスクです。
これまでのアプローチでは、エンドツーエンドで学習することで予測効率が向上しました。
ただし、これらの方法は、エンティティと述語間の一方向の条件付けを前提としているため、パフォーマンスが限られており、情報の相互作用が不十分になります。
この制限に対処するために、エンティティと述語間の効率的な相互作用を導入する、SGG 用の新しい双方向条件因数分解を提案します。
具体的には、因数分解を実装するために、エンドツーエンドのシーン グラフ生成モデルである双方向コンディショニング トランスフォーマー (BCTR) を開発します。
BCTR は 2 つの主要なモジュールで構成されます。
まず、双方向コンディショニング ジェネレーター (BCG) は、エンティティと述語間の多段階のインタラクティブな機能拡張を容易にし、2 つの予測間の相互利益を可能にします。
第 2 に、ランダム特徴アライメント (RFA) は、事前トレーニングされたモデルからマルチモーダルな知識を抽出することによって特徴空間を正規化し、統計的事前分布に依存せずに、裾付きカテゴリに対する BCTR の能力を強化します。
Visual Genome と Open Image V6 で一連の実験を実施し、BCTR が両方のベンチマークで最先端のパフォーマンスを達成することを実証しました。
コードは論文が受理されると利用可能になります。

要約(オリジナル)

Scene Graph Generation (SGG) remains a challenging task due to its compositional property. Previous approaches improve prediction efficiency by learning in an end-to-end manner. However, these methods exhibit limited performance as they assume unidirectional conditioning between entities and predicates, leading to insufficient information interaction. To address this limitation, we propose a novel bidirectional conditioning factorization for SGG, introducing efficient interaction between entities and predicates. Specifically, we develop an end-to-end scene graph generation model, Bidirectional Conditioning Transformer (BCTR), to implement our factorization. BCTR consists of two key modules. First, the Bidirectional Conditioning Generator (BCG) facilitates multi-stage interactive feature augmentation between entities and predicates, enabling mutual benefits between the two predictions. Second, Random Feature Alignment (RFA) regularizes the feature space by distilling multi-modal knowledge from pre-trained models, enhancing BCTR’s ability on tailed categories without relying on statistical priors. We conduct a series of experiments on Visual Genome and Open Image V6, demonstrating that BCTR achieves state-of-the-art performance on both benchmarks. The code will be available upon acceptance of the paper.

arxiv情報

著者 Peng Hao,Xiaobing Wang,Yingying Jiang,Hanchao Jia,Xiaoshuai Hao
発行日 2024-07-26 13:02:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク