Long-Tailed Visual Recognition via Self-Heterogeneous Integration with Knowledge Excavation

要約

タイトル:「知識発掘を伴う自己異質統合によるロングテール視覚認識」

要約:
– ニューラルネットワークは、過去数十年間で非常に進歩してきたが、現実世界のデータはしばしばロングテール分布を示すため、バニラディープモデルは多数派のクラスに対して重度のバイアスを示す傾向がある。
– この問題に対処するため、最先端の手法では、しばしば複数のエキスパートを採用して、ロングテール分布のさまざまな部分に焦点を当てることになる。しかし、これらの方法におけるエキスパートは、同じモデルの深さを有し、異なるクラスによって異なる深さのモデルにフィットすることを望んでいることを無視している。
– このため、本論文では、「知識発掘を伴う自己異質統合」(SHIKE) と呼ばれる、新しいMoEベースの手法を提案する。
– DKF(Depth-wise Knowledge Fusion)を提案し、各エキスパートの浅い部分と深い部分間の特徴を融合し、エキスパートが表現においてより多様なものになるようにする。
– DKFに基づいて、最も困難な負のクラスの影響を減らすDynamic Knowledge Transfer(DKT)を提案する。これは、モデルの末尾のような部分に影響を与え、長いテール部分に影響を与えることがあるためである。
– 結果的に、SHIKEはロングテールデータの分類性能を著しく向上させ、特にテーラクラスに対して優れた性能を発揮する。SHIKEは、CIFAR100-LT、ImageNet-LT、iNaturalist 2018、およびPlaces-LTにおいて、それぞれ56.3%、60.3%、75.4%、および41.9%という最先端の性能を発揮する。

要約(オリジナル)

Deep neural networks have made huge progress in the last few decades. However, as the real-world data often exhibits a long-tailed distribution, vanilla deep models tend to be heavily biased toward the majority classes. To address this problem, state-of-the-art methods usually adopt a mixture of experts (MoE) to focus on different parts of the long-tailed distribution. Experts in these methods are with the same model depth, which neglects the fact that different classes may have different preferences to be fit by models with different depths. To this end, we propose a novel MoE-based method called Self-Heterogeneous Integration with Knowledge Excavation (SHIKE). We first propose Depth-wise Knowledge Fusion (DKF) to fuse features between different shallow parts and the deep part in one network for each expert, which makes experts more diverse in terms of representation. Based on DKF, we further propose Dynamic Knowledge Transfer (DKT) to reduce the influence of the hardest negative class that has a non-negligible impact on the tail classes in our MoE framework. As a result, the classification accuracy of long-tailed data can be significantly improved, especially for the tail classes. SHIKE achieves the state-of-the-art performance of 56.3%, 60.3%, 75.4%, and 41.9% on CIFAR100-LT (IF100), ImageNet-LT, iNaturalist 2018, and Places-LT, respectively.

arxiv情報

著者 Yan Jin,Mengke Li,Yang Lu,Yiu-ming Cheung,Hanzi Wang
発行日 2023-04-06 04:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク