Enhancing Training Efficiency Using Packing with Flash Attention

要約

パディングは、LLM モデルのチューニングでよく使用されます。これは、各バッチ内の最長シーケンスの長さに一致するように、短いトレーニング サンプルに特別なトークンを追加することによって行われます。
これによりバッチ処理の均一性が保証されますが、計算に無関係なパディング トークンが含まれるため非効率が生じ、GPU リソースが無駄に使用されます。
Hugging Face SFT トレーナーは、パッキングを使用して複数のトレーニング サンプルを結合するオプションを常に提供しており、GPU リソースを最大限に活用できます。
ただし、これまでは、パックされた各トレーニング サンプルの適切なマスキングが提供されていませんでした。
この機能は、Hugging Face Transformers 4.44 に追加されました。
私たちはこの新しい機能を分析し、さまざまなパッキングのバリエーションにわたる利点を示します。

要約(オリジナル)

Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. Hugging Face SFT trainer has always offered the option to use packing to combine multiple training examples, allowing for maximal utilization of GPU resources. However, up till now, it did not offer proper masking of each packed training example. This capability has now been added to Hugging Face Transformers 4.44. We analyse this new feature and show the benefits across different variations of packing.

arxiv情報

著者 Achintya Kundu,Rhui Dih Lee,Laura Wynter,Raghu Kiran Ganti,Mayank Mishra
発行日 2024-08-23 14:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク