要約
画像検索に基づくアプリケーションでは、RGB画像やセマンティックラベルマップのような高密度のピクセルレベルの表現ではなく、オブジェクトやその関係などの高レベルの概念を表す中間スペースでの編集と関連付けが必要です。
そのような表現の1つであるシーングラフに焦点を当て、新しいノード(オブジェクト)と対応する関係を追加することによって入力シードグラフを強化する新しいシーン拡張タスクを提案します。
この目的のために、シーングラフの展開を、最初に新しいノードを予測し、次にグラフ内の新しく予測されたノードと前のノードの間の関係のセットを予測する複数のステップを含む順次予測タスクとして定式化します。
ノード間のクラスタリングパターンを保持する、観測されたグラフのシーケンス戦略を提案します。
さらに、外部の知識を活用してグラフ生成モデルをトレーニングし、ノード予測のより一般化を可能にします。
ノード(オブジェクト)間の予測関係を評価する際のグラフ生成問題に対する既存の最大平均不一致(MMD)ベースのメトリックの非効率性のため、予測関係のさまざまな側面を包括的に評価する新しいメトリックを設計します。
Visual GenomeおよびVRDデータセットで広範な実験を行い、標準のMMDベースのメトリックと提案されたメトリックを使用して拡張シーングラフを評価します。
私たちの方法であるGEMSによって生成されたグラフは、GraphRNNのようなベースライン方法よりもシーングラフの実際の分布をよりよく表していることがわかります。
要約(オリジナル)
Applications based on image retrieval require editing and associating in intermediate spaces that are representative of the high-level concepts like objects and their relationships rather than dense, pixel-level representations like RGB images or semantic-label maps. We focus on one such representation, scene graphs, and propose a novel scene expansion task where we enrich an input seed graph by adding new nodes (objects) and the corresponding relationships. To this end, we formulate scene graph expansion as a sequential prediction task involving multiple steps of first predicting a new node and then predicting the set of relationships between the newly predicted node and previous nodes in the graph. We propose a sequencing strategy for observed graphs that retains the clustering patterns amongst nodes. In addition, we leverage external knowledge to train our graph generation model, enabling greater generalization of node predictions. Due to the inefficiency of existing maximum mean discrepancy (MMD) based metrics for graph generation problems in evaluating predicted relationships between nodes (objects), we design novel metrics that comprehensively evaluate different aspects of predicted relations. We conduct extensive experiments on Visual Genome and VRD datasets to evaluate the expanded scene graphs using the standard MMD-based metrics and our proposed metrics. We observe that the graphs generated by our method, GEMS, better represent the real distribution of the scene graphs than the baseline methods like GraphRNN.
arxiv情報
著者 | Rishi Agarwal,Tirupati Saketh Chandra,Vaidehi Patil,Aniruddha Mahapatra,Kuldeep Kulkarni,Vishwa Vinay |
発行日 | 2022-07-08 07:41:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google