Delving into Semantic Scale Imbalance

要約

タイトル:Semantic Scale Imbalanceへの深入り

要約:
– 研究者たちは、ロングテールデータに基づくモデルのバイアスについて広く研究してきた。
– しかし、サンプル数に基づく測定値では、次の3つの現象を同時に明確に説明できない。 (1) 十分なデータがあれば、追加のサンプルによる分類性能向上は微小である。 (2) 十分なデータがない場合、トレーニングサンプル数が減少すると、分類性能が急激に低下する。 (3) サンプルバランスの取れたデータセットで訓練されたモデルでも、異なるクラスに対して異なるバイアスがある。
– この研究では、クラスの意味的スケールを定義し、測定する方法を提案することで、クラスの特徴多様性を測定するものである。
– 実験的に、意味的スケールには微小な効果があり、これは最初の2つの現象を完璧に説明する。
– さらに、意味的スケールの不均衡性を定量化する方法が提案されており、これは複数のデータセットでモデルのバイアスを正確に反映することができる。
– 意味的スケールの不均衡性が広まっているため、意味的スケールのバランスをとる学習が提案されている。これには、一般的な損失改善スキームと、セマンティックスケールの計算をイテレーション中にリアルタイムで行うための動的再重み付けトレーニングフレームワークが含まれる。
– 幅広い実験により、動的意味的スケールによるバランスの取れた学習により、モデルのバイアスを軽減するための良いスタート地点となることが明らかになった。

要約(オリジナル)

Model bias triggered by long-tailed data has been widely studied. However, measure based on the number of samples cannot explicate three phenomena simultaneously: (1) Given enough data, the classification performance gain is marginal with additional samples. (2) Classification performance decays precipitously as the number of training samples decreases when there is insufficient data. (3) Model trained on sample-balanced datasets still has different biases for different classes. In this work, we define and quantify the semantic scale of classes, which is used to measure the feature diversity of classes. It is exciting to find experimentally that there is a marginal effect of semantic scale, which perfectly describes the first two phenomena. Further, the quantitative measurement of semantic scale imbalance is proposed, which can accurately reflect model bias on multiple datasets, even on sample-balanced data, revealing a novel perspective for the study of class imbalance. Due to the prevalence of semantic scale imbalance, we propose semantic-scale-balanced learning, including a general loss improvement scheme and a dynamic re-weighting training framework that overcomes the challenge of calculating semantic scales in real-time during iterations. Comprehensive experiments show that dynamic semantic-scale-balanced learning consistently enables the model to perform superiorly on large-scale long-tailed and non-long-tailed natural and medical datasets, which is a good starting point for mitigating the prevalent but unnoticed model bias.

arxiv情報

著者 Yanbiao Ma,Licheng Jiao,Fang Liu,Yuxin Li,Shuyuan Yang,Xu Liu
発行日 2023-04-08 11:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク