要約
シーングラフ生成(SGG)における最近の進歩は、通常、あらかじめ定義された検出器から得られるボックスレベルの特徴を利用して、エンティティ間の関係をモデル化する。我々は、SGGにおいて見落とされている問題は、ボックス間の粗視化された相互作用であり、これは関係モデリングのための文脈的セマンティクスを十分に捕捉しておらず、この分野の発展を実質的に制限していると主張する。本論文では、Superpixel-based Interaction Learning (SIL)と呼ばれる、ボックスレベルでの粗視化された相互作用を改善する汎用的なパラダイムを探求し、提案する。これにより、SGGにおける超画素レベルでのきめ細かな相互作用をモデル化することができる。具体的には、(i)シーンを点の集合として扱い、それらをシーンの部分領域を表す超画素にクラスタリングする。(ii)スーパーピクセル間のエンティティ内およびエンティティ間の相互作用を探索し、早い段階でエンティティ間のきめ細かな相互作用を充実させる。2つの難易度の高いベンチマーク(Visual GenomeとOpen Image V6)を用いた広範な実験により、我々のSILは、これまでのボックスレベルの手法よりもスーパーピクセルレベルでのきめ細かな相互作用を可能にし、全てのメトリクスにおいてこれまでの最先端手法を大幅に上回ることを証明する。さらに心強いことに、提案手法は既存のボックスレベルアプローチの性能をプラグアンドプレイで向上させることができる。特に、SILはVisual GenomeのPredClsタスクにおいて、ベースラインの平均2.0% mR(最大3.4%)の改善をもたらし、既存のボックスレベル手法への統合を容易にする。
要約(オリジナル)
Recent advances in Scene Graph Generation (SGG) typically model the relationships among entities utilizing box-level features from pre-defined detectors. We argue that an overlooked problem in SGG is the coarse-grained interactions between boxes, which inadequately capture contextual semantics for relationship modeling, practically limiting the development of the field. In this paper, we take the initiative to explore and propose a generic paradigm termed Superpixel-based Interaction Learning (SIL) to remedy coarse-grained interactions at the box level. It allows us to model fine-grained interactions at the superpixel level in SGG. Specifically, (i) we treat a scene as a set of points and cluster them into superpixels representing sub-regions of the scene. (ii) We explore intra-entity and cross-entity interactions among the superpixels to enrich fine-grained interactions between entities at an earlier stage. Extensive experiments on two challenging benchmarks (Visual Genome and Open Image V6) prove that our SIL enables fine-grained interaction at the superpixel level above previous box-level methods, and significantly outperforms previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing box-level approaches in a plug-and-play fashion. In particular, SIL brings an average improvement of 2.0% mR (even up to 3.4%) of baselines for the PredCls task on Visual Genome, which facilitates its integration into any existing box-level method.
arxiv情報
著者 | Jingyi Wang,Can Zhang,Jinfa Huang,Botao Ren,Zhidong Deng |
発行日 | 2023-08-04 14:12:32+00:00 |
arxivサイト | arxiv_id(pdf) |