Vision Relation Transformer for Unbiased Scene Graph Generation

要約

近年、シーン グラフ生成 (SGG) への関心が高まっています。これは、オブジェクト エンコーダ/デコーダ バックボーンの上にスタックされたリレーション エンコーダ/デコーダ パイプラインを使用してエンティティの関係を予測することを目的とした、包括的な視覚的シーン理解タスクです。
残念ながら、現在の SGG メソッドでは、関係エンコード プロセス中にエンティティのローカル レベルのキューに関する情報が失われます。
これを軽減するために、新しいローカルレベルのエンティティ関係エンコーダで構成される Vision rElation TransfOrmer (VETO) を導入します。
さらに、多くの既存の SGG メソッドは偏っていないと主張していますが、依然として先頭クラスまたは末尾クラスのいずれかに偏っていることがわかります。
この偏りを克服するために、先頭クラスまたは末尾クラスに偏ることなく重要な関係特徴を捕捉する相互排他的 ExperT (MEET) 学習戦略を導入します。
VG および GQA データセットの実験結果は、VETO + MEET が 10 分の 1 のサイズでありながら、予測パフォーマンスを最新技術よりも最大 47 パーセント向上させることを示しています。

要約(オリジナル)

Recent years have seen a growing interest in Scene Graph Generation (SGG), a comprehensive visual scene understanding task that aims to predict entity relationships using a relation encoder-decoder pipeline stacked on top of an object encoder-decoder backbone. Unfortunately, current SGG methods suffer from an information loss regarding the entities local-level cues during the relation encoding process. To mitigate this, we introduce the Vision rElation TransfOrmer (VETO), consisting of a novel local-level entity relation encoder. We further observe that many existing SGG methods claim to be unbiased, but are still biased towards either head or tail classes. To overcome this bias, we introduce a Mutually Exclusive ExperT (MEET) learning strategy that captures important relation features without bias towards head or tail classes. Experimental results on the VG and GQA datasets demonstrate that VETO + MEET boosts the predictive performance by up to 47 percentage over the state of the art while being 10 times smaller.

arxiv情報

著者 Gopika Sudhakaran,Devendra Singh Dhami,Kristian Kersting,Stefan Roth
発行日 2023-08-18 11:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク