要約
パノプティック シーン グラフ (PSG) は、ボックスの代わりにパノプティック セグメンテーションを使用して、より包括的なシーン グラフ表現を作成することを目的とした、シーン グラフ生成 (SGG) における困難なタスクです。
ただし、現在の PSG 手法のパフォーマンスは限られており、下流のタスク開発を妨げる可能性があります。
PSG 手法を改善するために、現在の PSG モデルのボトルネックを特定するための詳細な分析を実施しました。その結果、オブジェクト間のペアごとの再現率が、以前の PSG 手法では無視されていた重要な要素であることが判明しました。
これに基づいて、我々は、ペア提案ネットワーク (PPN) を使用して、サブジェクトとオブジェクト間のまばらなペアごとの関係を学習し、フィルタリングする新しいフレームワークであるペア その後関係 (ペア ネット) を提案します。
また、オブジェクト ペアの疎な性質も観察し、この洞察を使用して PPN 内で軽量の行列学習器を設計しました。
広範なアブレーションと分析を通じて、強力なセグメンター ベースラインを活用することで、当社のアプローチは大幅に改善されます。
特に、私たちのアプローチは PSG ベンチマークで新しい最先端の結果を達成し、PSGFormer と比較して 10% 以上の絶対的な利益をもたらしました。
この論文のコードは https://github.com/king159/Pair-Net で公開されています。
要約(オリジナル)
Panoptic Scene Graph (PSG) is a challenging task in Scene Graph Generation (SGG) that aims to create a more comprehensive scene graph representation using panoptic segmentation instead of boxes. However, current PSG methods have limited performance, which can hinder downstream task development. To improve PSG methods, we conducted an in-depth analysis to identify the bottleneck of the current PSG models, finding that inter-object pair-wise recall is a crucial factor which was ignored by previous PSG methods. Based on this, we present a novel framework: Pair then Relation (Pair-Net), which uses a Pair Proposal Network (PPN) to learn and filter sparse pair-wise relationships between subjects and objects. We also observed the sparse nature of object pairs and used this insight to design a lightweight Matrix Learner within the PPN. Through extensive ablation and analysis, our approach significantly improves upon leveraging the strong segmenter baseline. Notably, our approach achieves new state-of-the-art results on the PSG benchmark, with over 10% absolute gains compared to PSGFormer. The code of this paper is publicly available at https://github.com/king159/Pair-Net.
arxiv情報
著者 | Jinghao Wang,Zhengyu Wen,Xiangtai Li,Zujin Guo,Jingkang Yang,Ziwei Liu |
発行日 | 2023-07-17 17:58:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google