要約
人工知能におけるトランスフォーマーの急速な進歩には、モデルのサイズが増大することによる資源消費量と温室効果ガス排出量の増加という代償が伴います。
これまでの研究では、トレーニング効率を向上させるために事前トレーニング済みの小さなモデルを使用することが提案されていますが、このアプローチは新しいモデル構造には適さない可能性があります。
一方で、ゼロからのトレーニングは時間がかかる可能性があり、レイヤーを徐々に積み重ねても大幅な高速化が達成できないことがよくあります。
これらの課題に対処するために、私たちは Apollo と呼ばれる新しい方法を提案します。これは、\textbf{l} で高い \textbf{l} を獲得することで、元の \textbf{p} と \textbf{o} の操作のためのレッスンを準備します。
低層のトレーニング中の ayer functioncti\textbf{o}nality。
私たちのアプローチには、異なる深さをトレーニングする低値優先サンプリング (LVPS) と、効率的な拡張を促進するための重み共有が含まれます。
また、安定したモデル深度拡張のための補間方法も紹介します。
実験では、Apollo が事前トレーニング済みモデルを使用する方法に匹敵する最先端の加速率を達成し、時間、財務、環境コストを削減しながら深いモデルをトレーニングするための普遍的かつ効率的なソリューションとなることが実証されています。
要約(オリジナル)
The rapid progress of Transformers in artificial intelligence has come at the cost of increased resource consumption and greenhouse gas emissions due to growing model sizes. Prior work suggests using pretrained small models to improve training efficiency, but this approach may not be suitable for new model structures. On the other hand, training from scratch can be slow, and progressively stacking layers often fails to achieve significant acceleration. To address these challenges, we propose a novel method called Apollo, which prep\textbf{a}res lessons for ex\textbf{p}anding \textbf{o}perations by \textbf{l}earning high-\textbf{l}ayer functi\textbf{o}nality during training of low layers. Our approach involves low-value-prioritized sampling (LVPS) to train different depths and weight sharing to facilitate efficient expansion. We also introduce an interpolation method for stable model depth extension. Experiments demonstrate that Apollo achieves state-of-the-art acceleration ratios, even rivaling methods using pretrained models, making it a universal and efficient solution for training deep models while reducing time, financial, and environmental costs.
arxiv情報
著者 | Yu Pan,Ye Yuan,Yichun Yin,Jiaxin Shi,Zenglin Xu,Ming Zhang,Lifeng Shang,Xin Jiang,Qun Liu |
発行日 | 2024-01-18 01:41:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google