要約
パノプティック シーン グラフ (PSG) は、ボックスの代わりにパノプティック セグメンテーションを使用して、より包括的なシーン グラフ表現を作成することを目的とした、シーン グラフ生成 (SGG) における困難なタスクです。
SGG と比較すると、PSG には、ピクセルレベルのセグメント出力と完全な関係探索 (物と物の関係も考慮されます) といういくつかの困難な問題があります。
したがって、現在の PSG メソッドのパフォーマンスは限られており、下流のタスクやアプリケーションの妨げとなります。
この作業の目標は、PSG の斬新で強力なベースラインを設計することです。
これを達成するために、まず詳細な分析を行って現在の PSG モデルのボトルネックを特定し、オブジェクト間のペアごとの再現率が以前の PSG 手法では無視されていた重要な要素であることを発見しました。
これと最近のクエリベースのフレームワークに基づいて、我々は新しいフレームワークであるペア トゥン リレーション (ペアネット) を提示します。これは、ペア提案ネットワーク (PPN) を使用して、サブジェクトとオブジェクト間の疎なペア関係を学習およびフィルタリングします。
さらに、両方のオブジェクト ペアの疎な性質も観察しました。これを動機として、ペア提案生成のためにペアごとの関係を直接学習する PPN 内で軽量の行列学習器を設計しました。
広範なアブレーションと分析を通じて、セグメンターのソリッド ベースラインを活用することで、当社のアプローチは大幅に改善されます。
特に、私たちの手法は PSG ベンチマークで新しい最先端の結果を達成し、PSGFormer と比較して 10% 以上の絶対ゲインを達成しました。
この論文のコードは https://github.com/king159/Pair-Net で公開されています。
要約(オリジナル)
Panoptic Scene Graph (PSG) is a challenging task in Scene Graph Generation (SGG) that aims to create a more comprehensive scene graph representation using panoptic segmentation instead of boxes. Compared to SGG, PSG has several challenging problems: pixel-level segment outputs and full relationship exploration (It also considers thing and stuff relation). Thus, current PSG methods have limited performance, which hinders downstream tasks or applications. The goal of this work aims to design a novel and strong baseline for PSG. To achieve that, we first conduct an in-depth analysis to identify the bottleneck of the current PSG models, finding that inter-object pair-wise recall is a crucial factor that was ignored by previous PSG methods. Based on this and the recent query-based frameworks, we present a novel framework: Pair then Relation (Pair-Net), which uses a Pair Proposal Network (PPN) to learn and filter sparse pair-wise relationships between subjects and objects. Moreover, we also observed the sparse nature of object pairs for both Motivated by this, we design a lightweight Matrix Learner within the PPN, which directly learn pair-wised relationships for pair proposal generation. Through extensive ablation and analysis, our approach significantly improves upon leveraging the segmenter solid baseline. Notably, our method achieves new state-of-the-art results on the PSG benchmark, with over 10\% absolute gains compared to PSGFormer. The code of this paper is publicly available at https://github.com/king159/Pair-Net.
arxiv情報
著者 | Jinghao Wang,Zhengyu Wen,Xiangtai Li,Zujin Guo,Jingkang Yang,Ziwei Liu |
発行日 | 2023-08-01 13:41:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google