要約
大規模な言語モデルをトレーニングするには、多様なコーパスが重要であることはよく知られています。言語モデルは通常、さまざまなドメインの混合から構築されます。
一般に、これまでの取り組みでは、さまざまなドメインから静的な割合でトレーニング データをサンプリングしたり、トレーニング中にデータの割合を調整したりすることに頼っていました。
ただし、ドメイン適応型の継続的な事前トレーニングの複雑さに対処した方法はほとんどありません。
このギャップを埋めるために、私たちは、学習速度を動的に評価し、それに応じてデータの割合を調整する新しいフレームワークである Velocitune を提案します。これにより、学習の遅いドメインを優先し、学習の速いドメインを避けます。これは、各ドメインに望ましい学習目標を示すスケーリング則に基づいています。
関連コストが少なくなります。
Velocitune の有効性を評価するために、CodeLlama を使用した推論に重点を置いたデータセットと、Llama3 および Mistral を使用したシステム コマンド生成に特化したコーパスで実験を実施しました。
Velocitune は、数学およびコード推論タスクとコマンドライン生成ベンチマークの両方でパフォーマンスの向上を実現します。
さらなる分析により、Velocitune の有効性を推進する主な要因には、ターゲット損失の予測とデータの順序付けが含まれることが明らかになりました。
要約(オリジナル)
It is well-known that a diverse corpus is critical for training large language models, which are typically constructed from a mixture of various domains. In general, previous efforts resort to sampling training data from different domains with static proportions, as well as adjusting data proportions during training. However, few methods have addressed the complexities of domain-adaptive continual pre-training. To fill this gap, we propose Velocitune, a novel framework dynamically assesses learning velocity and adjusts data proportions accordingly, favoring slower-learning domains while shunning faster-learning ones, which is guided by a scaling law to indicate the desired learning goal for each domain with less associated cost. To evaluate the effectiveness of Velocitune, we conduct experiments in a reasoning-focused dataset with CodeLlama, as well as in a corpus specialised for system command generation with Llama3 and Mistral. Velocitune achieves performance gains in both math and code reasoning tasks and command-line generation benchmarks. Further analysis reveals that key factors driving Velocitune’s effectiveness include target loss prediction and data ordering.
arxiv情報
著者 | Zheheng Luo,Xin Zhang,Xiao Liu,Haoling Li,Yeyun Gong,Chen Qi,Peng Cheng |
発行日 | 2024-11-21 17:10:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google