Enhancing Training Efficiency Using Packing with Flash Attention

要約

パディングは、LLM モデルのチューニングでよく使用されます。これは、各バッチ内の最長シーケンスの長さに一致するように、短いトレーニングサンプルに特別なトークンを追加することによって行われます。
これによりバッチ処理の均一性が保証されますが、計算に無関係なパディングトークンが含まれるため非効率が生じ、GPU リソースが無駄に使用されます。
Hugging Face SFT トレーナーは、パッキングを使用して複数のトレーニングサンプルを結合するオプションを常に提供しており、GPU リソースを最大限に活用できます。
ただし、これまでは、パックされた各トレーニングサンプルの適切なマスキングが提供されていませんでした。
この機能は、Hugging Face Transformers 4.44 に追加されました。
私たちはこの新しい機能を分析し、さまざまなパッキングのバリエーションにわたる利点を示します。

要約(オリジナル)

Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. Hugging Face SFT trainer has always offered the option to use packing to combine multiple training examples, allowing for maximal utilization of GPU resources. However, up till now, it did not offer proper masking of each packed training example. This capability has now been added to Hugging Face Transformers 4.44. We analyse this new feature and show the benefits across different variations of packing.

arxiv情報

著者	Achintya Kundu,Rhui Dih Lee,Laura Wynter,Raghu Kiran Ganti,Mayank Mishra
発行日	2024-08-23 14:11:05+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Enhancing Training Efficiency Using Packing with Flash Attention

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー