要約
マルチ ヒューマン解析 (MHP) の既存の方法では、統計モデルを適用して、画像とラベル付けされた身体部分の間の基礎的な関連性を取得します。
ただし、獲得された関連付けには、モデルの一般化を低下させる多くの偽の相関が含まれることが多く、統計モデルが画像の視覚的な文脈の変化 (例: 目に見えない画像スタイル/外部介入) に対して脆弱になります。
これに取り組むために、我々は、CIParsing と呼ばれる、因果関係にヒントを得た解析パラダイムを提案します。これは、人間による解析の 2 つの因果特性 (つまり、因果の多様性と因果の不変性) を含む基本的な因果原理に準拠しています。
具体的には、入力画像は因果的要因 (身体部位の特徴) と非因果的要因 (外部コンテキスト) の混合によって構築され、前者のみが人間による解析の生成プロセスを引き起こすと仮定します。
-因果因子は観察できないため、提案されている CIParsing における人間のパーサーは、因果因子の潜在表現を構築する必要があり、因果特性を満たす表現を強制することを学習します。
このようにして、人間のパーサーは、偽の相関に関する非因果的要因ではなく、関連する証拠に関する因果的要因に依存することができるため、モデルの劣化が軽減され、解析能力が向上します。
特に、CIParsing はプラグ アンド プレイ方式で設計されており、既存の MHP モデルに統合できます。
広く使用されている 2 つのベンチマークに対して行われた広範な実験により、私たちの手法の有効性と一般化可能性が実証されました。
要約(オリジナル)
Existing methods of multiple human parsing (MHP) apply statistical models to acquire underlying associations between images and labeled body parts. However, acquired associations often contain many spurious correlations that degrade model generalization, leading statistical models to be vulnerable to visually contextual variations in images (e.g., unseen image styles/external interventions). To tackle this, we present a causality inspired parsing paradigm termed CIParsing, which follows fundamental causal principles involving two causal properties for human parsing (i.e., the causal diversity and the causal invariance). Specifically, we assume that an input image is constructed by a mix of causal factors (the characteristics of body parts) and non-causal factors (external contexts), where only the former ones cause the generation process of human parsing.Since causal/non-causal factors are unobservable, a human parser in proposed CIParsing is required to construct latent representations of causal factors and learns to enforce representations to satisfy the causal properties. In this way, the human parser is able to rely on causal factors w.r.t relevant evidence rather than non-causal factors w.r.t spurious correlations, thus alleviating model degradation and yielding improved parsing ability. Notably, the CIParsing is designed in a plug-and-play fashion and can be integrated into any existing MHP models. Extensive experiments conducted on two widely used benchmarks demonstrate the effectiveness and generalizability of our method.
arxiv情報
著者 | Xiaojia Chen,Xuanhan Wang,Lianli Gao,Beitao Chen,Jingkuan Song,HenTao Shen |
発行日 | 2023-08-23 15:56:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google