General Greedy De-bias Learning

要約

ニューラルネットワークはしばしば、対象タスクの本質的な特性ではなく、データセットからのスプリアスな相関に依存して予測を行うため、分布外(OOD)テストデータで急激な劣化に直面する。既存のバイアス除去学習フレームワークは、アノテーションによって特定のデータセットのバイアスを捕捉しようとするが、複雑なOODシナリオを扱うことができない。また、低能力な偏りモデルや損失を設計することでデータセットの偏りを暗黙的に識別するものもあるが、学習データとテストデータが同じ分布の場合、劣化してしまう。本論文では、偏ったモデルとベースモデルを貪欲に学習させる一般的な貪欲脱偏り学習フレームワーク(GGD)を提案する。ベースモデルは、バイアス付きモデルでは解が得られないような事例に焦点を当て、テスト段階での偽相関に対してロバストであるよう促す。GGDは様々なタスクにおけるモデルのOOD汎化能力を大きく向上させるが、時にバイアスレベルを過大評価し、分布内テストにおいて劣化させる。我々はさらに、GGDのアンサンブル過程を再分析し、カリキュラム学習に着想を得たカリキュラム正則化を導入することで、分布内性能と分布外性能の良好なトレードオフを達成する。画像分類、敵対的質問応答、視覚的質問応答に関する広範な実験により、我々の手法の有効性が実証された。GGDは、事前知識を持つタスク特化型偏向モデルと、事前知識を持たない自己組織型偏向モデルの両方の設定において、より頑健なベースモデルを学習することができる。

要約(オリジナル)

Neural networks often make predictions relying on the spurious correlations from the datasets rather than the intrinsic properties of the task of interest, facing sharp degradation on out-of-distribution (OOD) test data. Existing de-bias learning frameworks try to capture specific dataset bias by annotations but they fail to handle complicated OOD scenarios. Others implicitly identify the dataset bias by special design low capability biased models or losses, but they degrade when the training and testing data are from the same distribution. In this paper, we propose a General Greedy De-bias learning framework (GGD), which greedily trains the biased models and the base model. The base model is encouraged to focus on examples that are hard to solve with biased models, thus remaining robust against spurious correlations in the test stage. GGD largely improves models’ OOD generalization ability on various tasks, but sometimes over-estimates the bias level and degrades on the in-distribution test. We further re-analyze the ensemble process of GGD and introduce the Curriculum Regularization inspired by curriculum learning, which achieves a good trade-off between in-distribution and out-of-distribution performance. Extensive experiments on image classification, adversarial question answering, and visual question answering demonstrate the effectiveness of our method. GGD can learn a more robust base model under the settings of both task-specific biased models with prior knowledge and self-ensemble biased model without prior knowledge.

arxiv情報

著者 Xinzhe Han,Shuhui Wang,Chi Su,Qingming Huang,Qi Tian
発行日 2022-06-08 10:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク