Unbiased Scene Graph Generation using Predicate Similarities

要約

シーングラフは、画像中の物体間の関係をグラフィカルに表現する手法として、コンピュータビジョンに広く応用されている。しかし、ロングテールの述語分布に起因する学習の偏りにより、実用化には至っていない。近年、この問題を解決するための研究が盛んに行われている。しかし,述語の類似性をデータセット固有の特徴として捉え,偏った予測を行っている研究は少ない.この特徴により、頻度の低い述語(例:parked on, covered in)は、関連性の高い頻出述語(例:on, in)と容易に誤判定されてしまうのである。述語の類似性を利用し、我々は、類似した述語グループに対していくつかの細かい分類器に処理を分岐させる新しい分類スキームを提案する。この分類器は、類似述語間の差異を詳細に捉えることを目的としている。また、記述的表現を学習するための十分な学習サンプルがない述語に対して、特徴量を強化するために転移学習の考え方を導入する。Visual Genomeデータセットに対する広範な実験の結果、我々の手法と既存のデビアス手法を組み合わせることで、困難なSGCls/SGDetタスクにおける末尾述語の性能が大幅に改善されることが示された。しかしながら、提案手法の全体的な性能は現在の技術水準に及ばないため、今後の課題としてさらなる分析が必要である。

要約(オリジナル)

Scene Graphs are widely applied in computer vision as a graphical representation of relationships between objects shown in images. However, these applications have not yet reached a practical stage of development owing to biased training caused by long-tailed predicate distributions. In recent years, many studies have tackled this problem. In contrast, relatively few works have considered predicate similarities as a unique dataset feature which also leads to the biased prediction. Due to the feature, infrequent predicates (e.g., parked on, covered in) are easily misclassified as closely-related frequent predicates (e.g., on, in). Utilizing predicate similarities, we propose a new classification scheme that branches the process to several fine-grained classifiers for similar predicate groups. The classifiers aim to capture the differences among similar predicates in detail. We also introduce the idea of transfer learning to enhance the features for the predicates which lack sufficient training samples to learn the descriptive representations. The results of extensive experiments on the Visual Genome dataset show that the combination of our method and an existing debiasing approach greatly improves performance on tail predicates in challenging SGCls/SGDet tasks. Nonetheless, the overall performance of the proposed approach does not reach that of the current state of the art, so further analysis remains necessary as future work.

arxiv情報

著者 Misaki Ohashi,Yusuke Matsui
発行日 2022-10-03 13:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク