要約
パッキングは、最初は事前トレーニング段階で利用され、モデルの最大入力長に合わせてさまざまなトレーニング シーケンスを組み合わせることにより、ハードウェア リソースの効率を最大化するように設計された最適化手法です。
事前トレーニング中の有効性は実証されていますが、教師あり微調整 (SFT) 段階では、次の点に関する包括的な分析がまだ不足しています: (1) パッキングがパフォーマンスを維持しながらトレーニング効率を効果的に向上できるかどうか、(2)
パッキング方法による微調整に適したモデルとデータセットのサイズ、(3) 無関係または関連するトレーニング サンプルのパッキングによってモデルがコンテキストを過度に無視したり過度に依存したりする可能性があるかどうか。
この論文では、69K から 1.2M の範囲の SFT データセットと 8B から 70B のモデルをカバーする、パディングとパッキングを使用した SFT 手法間の広範な比較を実行します。
これは、パッキングとパディングの利点と制限についての初めての包括的な分析と、さまざまなトレーニング シナリオでパッキングを実装するための実際的な考慮事項を提供します。
当社の分析は、知識、推論、コーディングだけでなく、GPT ベースの評価、時間効率、その他の微調整パラメーターを含むさまざまなベンチマークをカバーしています。
また、微調整と評価のためのコードをオープンソース化し、さまざまなサイズのデータセットに対して微調整されたチェックポイントを提供し、パッキング方法に関する将来の研究を前進させることを目指しています。
コードは https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file から入手できます。
要約(オリジナル)
Packing, initially utilized in the pre-training phase, is an optimization technique designed to maximize hardware resource efficiency by combining different training sequences to fit the model’s maximum input length. Although it has demonstrated effectiveness during pre-training, there remains a lack of comprehensive analysis for the supervised fine-tuning (SFT) stage on the following points: (1) whether packing can effectively enhance training efficiency while maintaining performance, (2) the suitable size of the model and dataset for fine-tuning with the packing method, and (3) whether packing unrelated or related training samples might cause the model to either excessively disregard or over-rely on the context. In this paper, we perform extensive comparisons between SFT methods using padding and packing, covering SFT datasets ranging from 69K to 1.2M and models from 8B to 70B. This provides the first comprehensive analysis of the advantages and limitations of packing versus padding, as well as practical considerations for implementing packing in various training scenarios. Our analysis covers various benchmarks, including knowledge, reasoning, and coding, as well as GPT-based evaluations, time efficiency, and other fine-tuning parameters. We also open-source our code for fine-tuning and evaluation and provide checkpoints fine-tuned on datasets of different sizes, aiming to advance future research on packing methods. Code is available at: https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file.
arxiv情報
著者 | Shuhe Wang,Guoyin Wang,Jiwei Li,Eduard Hovy,Chen Guo |
発行日 | 2024-10-10 16:25:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google