要約
従来の通念では、ビジョン トランスフォーマー (ViT) を事前トレーニングすると、有用な表現を学習することでダウンストリームのパフォーマンスが向上すると考えられています。
これは本当に本当なのでしょうか?
この疑問を調査したところ、事前トレーニング中に学習した特徴と表現は必須ではないことがわかりました。
驚くべきことに、モデルが高品質の機能を最初から学習し、同等のダウンストリーム パフォーマンスを達成するには、事前トレーニングからのアテンション パターン (つまり、トークン間で情報がどのように流れるかをガイドする) のみを使用するだけで十分です。
私たちは、注意伝達と呼ばれる簡単な方法を導入することでこれを示します。この方法では、注意マップをコピーまたは蒸留することによって、事前トレーニングを受けた教師 ViT からの注意パターンのみが生徒に伝達されます。
注意の伝達によって生徒は自分自身の特徴を学習できるため、きめ細かく調整された教師とアンサンブルすることで、ImageNet での精度もさらに向上します。
私たちは、微調整が不十分な分布シフト設定など、アテンション マップの十分性に関する調査結果のさまざまな側面を体系的に研究しています。
私たちの探索により、事前トレーニングが何を達成するのかをより深く理解し、標準的な微調整の実践に代わる有用な代替手段につながることを願っています。
要約(オリジナル)
Conventional wisdom suggests that pre-training Vision Transformers (ViT) improves downstream performance by learning useful representations. Is this actually true? We investigate this question and find that the features and representations learned during pre-training are not essential. Surprisingly, using only the attention patterns from pre-training (i.e., guiding how information flows between tokens) is sufficient for models to learn high quality features from scratch and achieve comparable downstream performance. We show this by introducing a simple method called attention transfer, where only the attention patterns from a pre-trained teacher ViT are transferred to a student, either by copying or distilling the attention maps. Since attention transfer lets the student learn its own features, ensembling it with a fine-tuned teacher also further improves accuracy on ImageNet. We systematically study various aspects of our findings on the sufficiency of attention maps, including distribution shift settings where they underperform fine-tuning. We hope our exploration provides a better understanding of what pre-training accomplishes and leads to a useful alternative to the standard practice of fine-tuning
arxiv情報
著者 | Alexander C. Li,Yuandong Tian,Beidi Chen,Deepak Pathak,Xinlei Chen |
発行日 | 2024-11-14 18:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google