DBN-Mix: Training Dual Branch Network Using Bilateral Mixup Augmentation for Long-Tailed Visual Recognition

要約

ロングテールのクラス分布から学習するという、挑戦的な視覚認識タスクへの関心が高まっている。学習データセットにおける極端なクラス不均衡は、少数クラスデータよりも多数クラスデータを優先的に認識するようモデルにバイアスをかける。最近、Dual Branch Network (DBN)の枠組みが提案され、ロングテール視覚認識の精度を向上させるために、従来のブランチと再バランシングブランチの2つのブランチネットワークが採用された。再バランス分岐では、逆サンプラーを用いてクラスバランスの取れた学習サンプルを生成し、クラスの不均衡によるバイアスを軽減する。この戦略は偏りを扱うのにかなり成功しているが、訓練に逆サンプラーを用いると表現学習の性能が低下することがある。この問題を緩和するために、従来は、再バランス化枝の影響が訓練段階全体を通じて徐々に大きくなるように注意深く設計された累積学習戦略を用いていた。本研究では、最適化が困難な累積学習を用いずにDBNの性能を向上させる、シンプルかつ効果的な手法を開発することを目的とする。本研究では、両側混合補強と呼ばれる簡単なデータ補強法を考案し、均一サンプラーからのサンプルと逆サンプラーからのサンプルを組み合わせて学習サンプルを生成する。さらに、提案するDBNアーキテクチャにおいて、多数派クラスへの偏りを緩和するクラス条件付き温度スケーリングを提示する。広く用いられているロングテール視覚認識データセットに対して行った実験により、両側混合補強がDBNの表現学習性能の向上に非常に有効であり、提案手法がいくつかのカテゴリに対して最先端の性能を達成することが示された。

要約(オリジナル)

There is a growing interest in the challenging visual perception task of learning from long-tailed class distributions. The extreme class imbalance in the training dataset biases the model to prefer to recognize majority-class data over minority-class data. Recently, the dual branch network (DBN) framework has been proposed, where two branch networks; the conventional branch and the re-balancing branch were employed to improve the accuracy of long-tailed visual recognition. The re-balancing branch uses a reverse sampler to generate class-balanced training samples to mitigate bias due to class imbalance. Although this strategy has been quite successful in handling bias, using a reversed sampler for training can degrade the representation learning performance. To alleviate this issue, the conventional method used a carefully designed cumulative learning strategy, in which the influence of the re-balancing branch gradually increases throughout the entire training phase. In this study, we aim to develop a simple yet effective method to improve the performance of DBN without cumulative learning that is difficult to optimize. We devise a simple data augmentation method termed bilateral mixup augmentation, which combines one sample from the uniform sampler with another sample from the reversed sampler to produce a training sample. Furthermore, we present class-conditional temperature scaling that mitigates bias toward the majority class for the proposed DBN architecture. Our experiments performed on widely used long-tailed visual recognition datasets show that bilateral mixup augmentation is quite effective in improving the representation learning performance of DBNs, and that the proposed method achieves state-of-the-art performance for some categories.

arxiv情報

著者 Jae Soon Baik,In Young Yoon,Jun Won Choi
発行日 2022-07-05 17:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク