Rethink Long-tailed Recognition with Vision Transformers

要約

タイトル:Vision Transformersを用いた長尾型認識の再考
要約:
– 現実世界でのデータはクラスまたは属性に関して長尾分布に従うことが多く、これが長尾型認識の問題を引き起こしている。
– 本論文では、最近の長尾型認識の手法をVision Transformers(以下ViT)を用いて再考し、以下が分かった。
– ViTは長尾データでの学習が難しい。
– ViTは長尾またはバランスのとれたデータにおいて、マスク生成トレーニングのように、教師なしで一般化された特徴を学ぶ。
– そのため、本研究では長尾データを利用するために教師なし学習を採用することを提案する。
– さらに、我々は長尾型認識のための新しい測定基準であるPredictive Distribution Calibration(PDC)を提案する。モデルは入力を一般のクラスに分類する傾向がある。PDCは、予測的な傾向の測定を数量化し、モデルのキャリブレーションを測定することができる。
– この基盤の上で、我々は多くのLTRアプローチがこれをやや軽減することが分かったが、精度の向上にもかかわらずPDCにも改善があることを発見した。
– ベンチマークデータセット上での広範な実験により、PDCはモデルの予測傾向を正確に反映し、可視化と一致していることが示された。

要約(オリジナル)

In the real world, data tends to follow long-tailed distributions w.r.t. class or attribution, motivating the challenging Long-Tailed Recognition (LTR) problem. In this paper, we revisit recent LTR methods with promising Vision Transformers (ViT). We figure out that 1) ViT is hard to train with long-tailed data. 2) ViT learns generalized features in an unsupervised manner, like mask generative training, either on long-tailed or balanced datasets. Hence, we propose to adopt unsupervised learning to utilize long-tailed data. Furthermore, we propose the Predictive Distribution Calibration (PDC) as a novel metric for LTR, where the model tends to simply classify inputs into common classes. Our PDC can measure the model calibration of predictive preferences quantitatively. On this basis, we find many LTR approaches alleviate it slightly, despite the accuracy improvement. Extensive experiments on benchmark datasets validate that PDC reflects the model’s predictive preference precisely, which is consistent with the visualization.

arxiv情報

著者 Zhengzhuo Xu,Shuo Yang,Xingjun Wang,Chun Yuan
発行日 2023-04-17 08:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク