Learning To Generate Scene Graph from Head to Tail

要約

シーングラフ生成(SGG)は、オブジェクトとそのグラフ構造との相互作用を表します。
最近、多くの研究がSGGの不均衡な問題を解決することに専念しています。
ただし、トレーニングプロセス全体でヘッド述語を過小評価すると、テール述語の一般的な機能を提供するヘッド述語の機能が破壊されます。
さらに、テール述語に過度の注意を払うと、セマンティックの逸脱につながります。
これに基づいて、カリキュラム再重み付けメカニズム(CRM)とセマンティックコンテキストモジュール(SCM)を含む、頭から尾までのシーングラフ(SGG-HT)の生成を学習する新しいSGGフレームワークを提案します。
CRMは、最初に頭の述語の堅牢な機能について頭/簡単なサンプルを学習し、次に尾/硬い述語に徐々に焦点を合わせます。
SCMは、生成されたシーングラフとグローバルおよびローカル表現のグラウンドトゥルースとの間のセマンティック整合性を確保することにより、セマンティック偏差を緩和するために提案されています。
実験によると、SGG-HTは偏った問題を大幅に軽減し、ビジュアルゲノムの最先端のパフォーマンスを実現します。

要約(オリジナル)

Scene Graph Generation (SGG) represents objects and their interactions with a graph structure. Recently, many works are devoted to solving the imbalanced problem in SGG. However, underestimating the head predicates in the whole training process, they wreck the features of head predicates that provide general features for tail ones. Besides, assigning excessive attention to the tail predicates leads to semantic deviation. Based on this, we propose a novel SGG framework, learning to generate scene graphs from Head to Tail (SGG-HT), containing Curriculum Re-weight Mechanism (CRM) and Semantic Context Module (SCM). CRM learns head/easy samples firstly for robust features of head predicates and then gradually focuses on tail/hard ones. SCM is proposed to relieve semantic deviation by ensuring the semantic consistency between the generated scene graph and the ground truth in global and local representations. Experiments show that SGG-HT significantly alleviates the biased problem and chieves state-of-the-art performances on Visual Genome.

arxiv情報

著者 Chaofan Zheng,Xinyu Lyu,Yuyu Guo,Pengpeng Zeng,Jingkuan Song,Lianli Gao
発行日 2022-06-23 12:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク