Balancing Accuracy, Calibration, and Efficiency in Active Learning with Vision Transformers Under Label Noise

要約

下流タスクのImagenet上の事前に訓練された畳み込みニューラルネットワークを微調整することは十分に確立されています。
それでも、特にラベルノイズの下での同様のシナリオでの視覚変圧器のパフォーマンスに対するモデルサイズの影響は、ほとんど説明されていません。
トランスアーキテクチャの有用性と汎用性を考えると、この研究では、低予算の制約と騒々しいラベルの下での実用性を調査しています。
アクティブな学習設定における対称ラベルノイズの分類精度とキャリブレーションが、CIFAR10およびCIFAR100データセットの3つのSWINトランス構成(16×16および32×32パッチサイズのベースと大規模)と3つのSWINトランス構成(小さな、小さな、およびベース)を評価することで、分類の精度とキャリブレーションがどのように影響を受けるかを調査します。
私たちの調査結果は、より大きなVITモデル(特にVITL32)は、中程度から高ラベルノイズの下であっても、精度とキャリブレーションの両方でより小さな対応物を一貫して上回る一方で、すべてのノイズレベルでより弱い堅牢性を示すことを示しています。
VITL16は、より高い計算コストを発生させながらVITL32よりも一貫して悪化するため、パッチサイズが小さくなるとは限らないことがわかります。
また、情報ベースのアクティブ学習戦略は、中程度のラベルノイズレートで有意義な精度の改善を提供するだけですが、ランダムに取得したラベル、特に高ラベルノイズレートでトレーニングされたモデルと比較して、キャリブレーションが低下することがわかります。
これらの洞察が、モデルの複雑さ、ラベルノイズ、およびコンピューティング効率のバランスをとるリソースに制約のある環境に視力変圧器を展開しようとする実務家に実用的なガイダンスを提供することを願っています。モデルの微調整または蒸留において重要です。

要約(オリジナル)

Fine-tuning pre-trained convolutional neural networks on ImageNet for downstream tasks is well-established. Still, the impact of model size on the performance of vision transformers in similar scenarios, particularly under label noise, remains largely unexplored. Given the utility and versatility of transformer architectures, this study investigates their practicality under low-budget constraints and noisy labels. We explore how classification accuracy and calibration are affected by symmetric label noise in active learning settings, evaluating four vision transformer configurations (Base and Large with 16×16 and 32×32 patch sizes) and three Swin Transformer configurations (Tiny, Small, and Base) on CIFAR10 and CIFAR100 datasets, under varying label noise rates. Our findings show that larger ViT models (ViTl32 in particular) consistently outperform their smaller counterparts in both accuracy and calibration, even under moderate to high label noise, while Swin Transformers exhibit weaker robustness across all noise levels. We find that smaller patch sizes do not always lead to better performance, as ViTl16 performs consistently worse than ViTl32 while incurring a higher computational cost. We also find that information-based Active Learning strategies only provide meaningful accuracy improvements at moderate label noise rates, but they result in poorer calibration compared to models trained on randomly acquired labels, especially at high label noise rates. We hope these insights provide actionable guidance for practitioners looking to deploy vision transformers in resource-constrained environments, where balancing model complexity, label noise, and compute efficiency is critical in model fine-tuning or distillation.

arxiv情報

著者 Moseli Mots’oehli,Hope Mogale,Kyungim Baek
発行日 2025-05-07 12:53:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク