Unbiased Scene Graph Generation via Two-stage Causal Modeling

要約

最近の不偏シーングラフ生成 (SGG) 手法の目覚ましいパフォーマンスにもかかわらず、現在のバイアス緩和に関する文献は主にロングテール分布の問題に焦点を当てている一方で、別のバイアスの原因、つまり、SGG モデルを譲歩しやすくする意味上の混乱を見落としています。
同様の関係に対する誤った予測。
この論文では、因果推論を活用した SGG タスクのバイアス除去手順を検討します。
私たちの中心的な洞察は、因果関係におけるスパース メカニズム シフト (SMS) により、複数のバイアスに対する独立した介入が可能になり、それにより、情報量の多いテール関係の予測を追求しながら、ヘッド カテゴリのパフォーマンスを維持できる可能性があるということです。
ただし、ノイズの多いデータセットは SGG タスクの観察されていない交絡因子につながるため、構築された因果モデルは常に SMS の恩恵を受けるには因果関係が不十分です。
これを改善するために、我々は SGG タスクに 2 段階因果モデリング (TsCM) を提案します。これは、ロングテール分布と意味論的混乱を構造因果モデル (SCM) への交絡因子として取り上げ、因果的介入を 2 段階に分離します。
最初の段階は因果表現の学習で、新しい人口損失 (P-Loss) を使用して意味論的混乱交絡因子に介入します。
第 2 段階では、適応ロジット調整 (AL 調整) を導入して、ロングテール分布交絡因子を排除し、因果的キャリブレーション学習を完了します。
これら 2 つの段階はモデルに依存しないため、不偏な予測を求める任意の SGG モデルで使用できます。
人気の SGG バックボーンとベンチマークに対して行われた包括的な実験により、当社の TsCM が平均再現率の点で最先端のパフォーマンスを達成できることが示されています。
さらに、TsCM は他のバイアス除去手法よりも高い再現率を維持できます。これは、この手法がヘッドとテールの関係の間でより良いトレードオフを達成できることを示しています。

要約(オリジナル)

Despite the impressive performance of recent unbiased Scene Graph Generation (SGG) methods, the current debiasing literature mainly focuses on the long-tailed distribution problem, whereas it overlooks another source of bias, i.e., semantic confusion, which makes the SGG model prone to yield false predictions for similar relationships. In this paper, we explore a debiasing procedure for the SGG task leveraging causal inference. Our central insight is that the Sparse Mechanism Shift (SMS) in causality allows independent intervention on multiple biases, thereby potentially preserving head category performance while pursuing the prediction of high-informative tail relationships. However, the noisy datasets lead to unobserved confounders for the SGG task, and thus the constructed causal models are always causal-insufficient to benefit from SMS. To remedy this, we propose Two-stage Causal Modeling (TsCM) for the SGG task, which takes the long-tailed distribution and semantic confusion as confounders to the Structural Causal Model (SCM) and then decouples the causal intervention into two stages. The first stage is causal representation learning, where we use a novel Population Loss (P-Loss) to intervene in the semantic confusion confounder. The second stage introduces the Adaptive Logit Adjustment (AL-Adjustment) to eliminate the long-tailed distribution confounder to complete causal calibration learning. These two stages are model agnostic and thus can be used in any SGG model that seeks unbiased predictions. Comprehensive experiments conducted on the popular SGG backbones and benchmarks show that our TsCM can achieve state-of-the-art performance in terms of mean recall rate. Furthermore, TsCM can maintain a higher recall rate than other debiasing methods, which indicates that our method can achieve a better tradeoff between head and tail relationships.

arxiv情報

著者 Shuzhou Sun,Shuaifeng Zhi,Qing Liao,Janne Heikkilä,Li Liu
発行日 2023-07-11 14:11:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク