Less is More: Selective Layer Finetuning with SubTuning

要約

事前トレーニングされたモデルを微調整することは、新しいタスクでニューラル ネットワークをトレーニングするための標準的なアプローチになっており、その結果、高速な収束とパフォーマンスの向上が実現します。
この研究では、ネットワークのすべての重みを微調整する代わりに、慎重に選択した層のサブセットのみをトレーニングし、残りの重みを初期 (事前トレーニング) 値で固定したままにする、代替の微調整方法を研究します。
\emph{サブセット微調整} (またはサブチューニング) は多くの場合、モデルの完全な微調整に匹敵する精度を達成し、トレーニング データが不足している場合には完全な微調整のパフォーマンスを上回ることさえ示します。
したがって、SubTuning を使用すると、モデル全体を微調整する利点を享受しながら、最小限の計算コストで新しいタスクをデプロイすることができます。
これにより、異なるタスクが互いに干渉せず、推論時にほとんどのリソースを共有する、マルチタスク学習のためのシンプルで効果的な方法が得られます。
さまざまなネットワーク アーキテクチャと事前トレーニング方法を使用して、複数のタスクにわたるサブチューニングの効率を実証します。

要約(オリジナル)

Finetuning a pretrained model has become a standard approach for training neural networks on novel tasks, resulting in fast convergence and improved performance. In this work, we study an alternative finetuning method, where instead of finetuning all the weights of the network, we only train a carefully chosen subset of layers, keeping the rest of the weights frozen at their initial (pretrained) values. We demonstrate that \emph{subset finetuning} (or SubTuning) often achieves accuracy comparable to full finetuning of the model, and even surpasses the performance of full finetuning when training data is scarce. Therefore, SubTuning allows deploying new tasks at minimal computational cost, while enjoying the benefits of finetuning the entire model. This yields a simple and effective method for multi-task learning, where different tasks do not interfere with one another, and yet share most of the resources at inference time. We demonstrate the efficiency of SubTuning across multiple tasks, using different network architectures and pretraining methods.

arxiv情報

著者 Gal Kaplun,Andrey Gurevich,Tal Swisa,Mazor David,Shai Shalev-Shwartz,Eran Malach
発行日 2023-07-02 12:28:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク