要約
この論文では、小規模言語モデルの継続的なポストトレーニング最適化手法を詳しく掘り下げ、小規模言語モデル向けの継続的なポストトレーニングアライメントデータ構築手法を提案します。
この方法の中核は、大規模モデルのデータ ガイダンスに基づいており、アライメント データの多様性と精度を最適化します。
さらに、この論文の手法の有効性を検証するために、小規模言語モデルのベースライン モデルとして Qwen2-0.5B-Instruct モデルを使用し、提案手法によって構築されたアライメント データセットを使用して、いくつかの実験グループを訓練および比較しました。
、SFT (教師あり微調整) ポストトレーニング実験と KTO (カーネマン トベルスキー最適化) ポストトレーニング実験、および SFT-KTO 2 段階ポストトレーニング実験とモデル重み融合実験が含まれます。
最後に、トレーニング後のモデルのパフォーマンスを評価および分析し、私たちが提案した継続的なトレーニング後最適化手法が小さな言語モデルのパフォーマンスを大幅に向上できることを確認しました。
要約(オリジナル)
This paper delves into the continuous post-training optimization methods for small language models, and proposes a continuous post-training alignment data construction method for small language models. The core of this method is based on the data guidance of large models, optimizing the diversity and accuracy of alignment data. In addition, to verify the effectiveness of the methods in this paper, we used Qwen2-0.5B-Instruct model as the baseline model for small language models, using the alignment dataset constructed by our proposed method, we trained and compared several groups of experiments, including SFT (Supervised Fine Tuning) post-training experiment and KTO (Kahneman Tversky optimization) post-training experiment, as well as SFT-KTO two-stage post-training experiment and model weight fusion experiment. Finally, we evaluated and analyzed the performance of post-training models, and confirmed that the continuous post-training optimization method proposed by us can significantly improve the performance of small language models.
arxiv情報
著者 | Keke Zhai |
発行日 | 2024-11-05 09:32:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google