Class-Difficulty Based Methods for Long-Tailed Visual Recognition

要約

ロングテール データセットは、いくつかのクラスまたはカテゴリ (マジョリティまたはヘッド クラスと呼ばれる) が他のクラス (マイノリティまたはテール クラスと呼ばれる) と比較してデータ サンプルの数が多い実世界のユース ケースで非常に頻繁に遭遇します。
このようなデータセットでディープ ニューラル ネットワークをトレーニングすると、ヘッド クラスに偏った結果が得られます。
これまでのところ、研究者はバイアスを減らすために、複数の加重損失とデータの再サンプリング手法を考え出しています。
ただし、そのような手法のほとんどは、末尾のクラスが常に最も学習が難しいクラスであり、そのため、より多くの重み付けまたは注意が必要であると想定しています。
ここで、仮定が常に成り立つとは限らないことを主張します。
したがって、モデルのトレーニング段階で各クラスの瞬間的な難易度を動的に測定する新しいアプローチを提案します。
さらに、各クラスの難易度測定値を使用して、「クラスごとの難易度に基づく加重 (CDB-W) 損失」と呼ばれる新しい加重損失手法と、「クラスごとの難易度に基づくサンプリング (CDB-S)」と呼ばれる新しいデータ サンプリング手法を設計します。
)」。
CDB メソッドの広範な有用性を検証するために、画像分類、オブジェクト検出、インスタンス セグメンテーション、ビデオ アクション分類などの複数のタスクについて広範な実験を実施しました。
結果は、CDB-W 損失と CDB-S が、ImageNet-LT、LVIS、EGTEA など、実際のユースケースに似た多くのクラスが不均衡なデータセットで最先端の結果を達成できることを確認しました。

要約(オリジナル)

Long-tailed datasets are very frequently encountered in real-world use cases where few classes or categories (known as majority or head classes) have higher number of data samples compared to the other classes (known as minority or tail classes). Training deep neural networks on such datasets gives results biased towards the head classes. So far, researchers have come up with multiple weighted loss and data re-sampling techniques in efforts to reduce the bias. However, most of such techniques assume that the tail classes are always the most difficult classes to learn and therefore need more weightage or attention. Here, we argue that the assumption might not always hold true. Therefore, we propose a novel approach to dynamically measure the instantaneous difficulty of each class during the training phase of the model. Further, we use the difficulty measures of each class to design a novel weighted loss technique called `class-wise difficulty based weighted (CDB-W) loss’ and a novel data sampling technique called `class-wise difficulty based sampling (CDB-S)’. To verify the wide-scale usability of our CDB methods, we conducted extensive experiments on multiple tasks such as image classification, object detection, instance segmentation and video-action classification. Results verified that CDB-W loss and CDB-S could achieve state-of-the-art results on many class-imbalanced datasets such as ImageNet-LT, LVIS and EGTEA, that resemble real-world use cases.

arxiv情報

著者 Saptarshi Sinha,Hiroki Ohashi,Katsuyuki Nakamura
発行日 2022-08-22 06:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク