Hint-Aug: Drawing Hints from Foundation Vision Transformers Towards Boosted Few-Shot Parameter-Efficient Tuning




– 背景:FViTチューニングに対する需要が高まっているが、データ制限下(例:フューション・ショット・チューニング)でFViTの可能性を十分に発揮することは、FViTのデータハングリーな性質のために依然として難しい。
– 課題:フューション・ショット・チューニングデータには限られた特徴があるため、一般的なデータ拡張技術はこの文脈では不十分である。
– 解決策:Hint-Augフレームワークは、学習されたFViTsの特徴を利用して調整データを拡張することで、フューション・ショット・FViTのチューニング効果を高めることを目的としている。
– 重要な特徴:Hint-Augは、(1)Attentive Over-fitting Detector(AOD)を用いて、ファウンデーション ViTsの過剰適合パッチを検出し、それらのフューション・ショット・チューニングデータ上での過剰適合を緩和することができ、(2)Confusion-based Feature Infusion(CFI)モジュールを用いて、AODで検出された過剰適合パッチに事前学習されたFViTsの簡単に混同される特徴を注入することで、チューニング中の特徴の多様性を向上させることができる。
– 結果:5つのデータセットと3つのパラメータ効率的なチューニング技術での広範な実験と比較研究により、ヒント・オーグの効果が検証されました。例えば、ペットデータセットでは、SOTAデータ拡張方法よりも50%少ないトレーニングデータで2.22%高い精度を達成しました。


Despite the growing demand for tuning foundation vision transformers (FViTs) on downstream tasks, fully unleashing FViTs’ potential under data-limited scenarios (e.g., few-shot tuning) remains a challenge due to FViTs’ data-hungry nature. Common data augmentation techniques fall short in this context due to the limited features contained in the few-shot tuning data. To tackle this challenge, we first identify an opportunity for FViTs in few-shot tuning: pretrained FViTs themselves have already learned highly representative features from large-scale pretraining data, which are fully preserved during widely used parameter-efficient tuning. We thus hypothesize that leveraging those learned features to augment the tuning data can boost the effectiveness of few-shot FViT tuning. To this end, we propose a framework called Hint-based Data Augmentation (Hint-Aug), which aims to boost FViT in few-shot tuning by augmenting the over-fitted parts of tuning samples with the learned features of pretrained FViTs. Specifically, Hint-Aug integrates two key enablers: (1) an Attentive Over-fitting Detector (AOD) to detect over-confident patches of foundation ViTs for potentially alleviating their over-fitting on the few-shot tuning data and (2) a Confusion-based Feature Infusion (CFI) module to infuse easy-to-confuse features from the pretrained FViTs with the over-confident patches detected by the above AOD in order to enhance the feature diversity during tuning. Extensive experiments and ablation studies on five datasets and three parameter-efficient tuning techniques consistently validate Hint-Aug’s effectiveness: 0.04% ~ 32.91% higher accuracy over the state-of-the-art (SOTA) data augmentation method under various low-shot settings. For example, on the Pet dataset, Hint-Aug achieves a 2.22% higher accuracy with 50% less training data over SOTA data augmentation methods.


著者 Zhongzhi Yu,Shang Wu,Yonggan Fu,Shunyao Zhang,Yingyan Lin
発行日 2023-04-26 19:38:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク