要約
シーン グラフの生成では、入力データからサブジェクト – オブジェクト – 関係のトリプレットを予測することにより、シーン内のオブジェクト間の関係の構造表現を作成します。
ただし、既存の方法は、主に依存する特徴学習に依存しているため、事前定義されたセット外のトリプレットを検出する際のパフォーマンスが低下します。
この問題に対処するために、DDS (分離された動的シーングラフ生成ネットワーク) を提案します。これは、抽出された特徴を解きほぐすことができる 2 つの独立したブランチで構成されます。
現在の論文の重要なイノベーションは、関係を表す特徴をオブジェクトの特徴から分離することです。これにより、新しいオブジェクトと関係の組み合わせの検出が可能になります。
DDS モデルは 3 つのデータセットで評価され、特に以前には見られなかったトリプレットの検出において、以前の方法よりも大幅に優れています。
要約(オリジナル)
Scene-graph generation involves creating a structural representation of the relationships between objects in a scene by predicting subject-object-relation triplets from input data. However, existing methods show poor performance in detecting triplets outside of a predefined set, primarily due to their reliance on dependent feature learning. To address this issue we propose DDS — a decoupled dynamic scene-graph generation network — that consists of two independent branches that can disentangle extracted features. The key innovation of the current paper is the decoupling of the features representing the relationships from those of the objects, which enables the detection of novel object-relationship combinations. The DDS model is evaluated on three datasets and outperforms previous methods by a significant margin, especially in detecting previously unseen triplets.
arxiv情報
著者 | A S M Iftekhar,Raphael Ruschel,Satish Kumar,Suya You,B. S. Manjunath |
発行日 | 2023-01-18 17:20:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google