要約
低次元部分空間でディープ ニューラル ネットワーク (DNN) をトレーニングすることは、効率的なトレーニングとより優れた汎化パフォーマンスを達成するための有望な方向性です。
これまでの研究では、ランダム投影を使用するか、トレーニング軌道に対して次元削減法を実行することによって部分空間を抽出していましたが、これらの方法は次元性や数値演算の点で非効率的または不安定になる可能性があります。
この論文では、部分空間トレーニングを重み平均化に結び付け、これまでの取り組みを一般化した部分空間トレーニングの一般的なアプローチであるトレーニング可能な重み平均化 (TWA) を提案します。
TWA は次元の点で効率的であり、使いやすいため、亜空間トレーニングの新しい方法として有望です。
さらに、大規模な問題に対処するための部分空間トレーニングの効率的なスキームを設計します。これにより、複数のノードにわたる並列トレーニングが可能になり、メモリと計算負荷を各ノードに均等に分散できます。
私たちは TWA を効率的なニューラル ネットワーク トレーニングに適用し、パフォーマンス タスクの微調整を改善して、アプローチの優れた効率と有効性を実証します。
私たちは、さまざまなベンチマーク コンピューター ビジョンとニューラル言語処理タスクをさまざまなアーキテクチャでカバーする広範な実験を行っています。
実装コードは https://github.com/nblt/TWA で入手できます。
要約(オリジナル)
Training deep neural networks (DNNs) in low-dimensional subspaces is a promising direction for achieving efficient training and better generalization performance. Previous works extract the subspaces by using random projection or performing dimensionality reduction method on the training trajectory, but these methods can be inefficient or unstable in terms of dimensionality and numerical operations. In this paper, we connect subspace training to weight averaging and propose Trainable Weight Averaging (TWA), a general approach for subspace training that generalizes the previous efforts. TWA is efficient in terms of dimensionality and also easy to use, making it a promising new method for subspace training. We further design an efficient scheme for subspace training to cope with large-scale problems, which allows parallel training across multiple nodes and evenly distributing the memory and computation burden to each node. We apply TWA to efficient neural network training and improving fine-tuning performance tasks to demonstrate the great efficiency and effectiveness of our approach. We conduct extensive experiments that cover various benchmark computer vision and neural language processing tasks with various architectures. The code of implementation is available at https://github.com/nblt/TWA.
arxiv情報
| 著者 | Tao Li,Zhehao Huang,Qinghua Tao,Yingwen Wu,Xiaolin Huang |
| 発行日 | 2023-07-06 12:32:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google