Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues

要約

タイトル:小さな相関と多様性の変化でもデータセットの偏り問題が発生する
要約:
– 現実世界のデータセットには分布の変化がよく見られ、深層学習モデルの性能と信頼性に影響を与えることがある。
– 本論文では、分布の変化として2つのタイプを取り上げる:多様性の変化と相関の変化。
– 多様性の変化は、テストサンプルにトレーニング中に見ていなかったパターンが出現することを意味し、相関の変化は、既知の不変部分と偽の特徴の相関が異なるテストデータが存在することを意味する。
– 両方のタイプの変化を分析するための統合プロトコルを提案し、それらが制御可能な方法で共存するデータセットを使用する。
– 最後に、肌がん分析の現実世界の分類問題にアプローチした結果、我々のプロトコルから、以下の3つの発見が得られた。
1) 低バイアスのトレーニングでも、モデルは相関の変化を学習し、伝播する傾向があり、負の偏りを蓄積して組み合わせるリスクがある。
2) モデルは高バイアスと低バイアスのシナリオで強力な特徴を学習しており、偽の相関が存在する場合にはそれらを使用するが、偽の相関があると非強制的な特徴を優先的に使用する傾向がある。
3) 多様性の変化は、偏りのあるモデルが不変特徴が欠けていると予想されるときに、特定の偏りに依存する傾向が低くなることができる。「偏り」が異なるタイプの変化に適応する方法を提供する。
– モデルがどのように学習し、偽の相関に依存しているかに新しい見解を提供する。

要約(オリジナル)

Distribution shifts are common in real-world datasets and can affect the performance and reliability of deep learning models. In this paper, we study two types of distribution shifts: diversity shifts, which occur when test samples exhibit patterns unseen during training, and correlation shifts, which occur when test data present a different correlation between seen invariant and spurious features. We propose an integrated protocol to analyze both types of shifts using datasets where they co-exist in a controllable manner. Finally, we apply our approach to a real-world classification problem of skin cancer analysis, using out-of-distribution datasets and specialized bias annotations. Our protocol reveals three findings: 1) Models learn and propagate correlation shifts even with low-bias training; this poses a risk of accumulating and combining unaccountable weak biases; 2) Models learn robust features in high- and low-bias scenarios but use spurious ones if test samples have them; this suggests that spurious correlations do not impair the learning of robust features; 3) Diversity shift can reduce the reliance on spurious correlations; this is counter intuitive since we expect biased models to depend more on biases when invariant features are missing. Our work has implications for distribution shift research and practice, providing new insights into how models learn and rely on spurious correlations under different types of shifts.

arxiv情報

著者 Alceu Bissoto,Catarina Barata,Eduardo Valle,Sandra Avila
発行日 2023-05-09 23:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク