要約
教師ありファインチューニング (SFT) データの品質は、大規模言語モデル (LLM) の会話機能を強化する上で重要な役割を果たします。
しかし、LLM がより高度になるにつれて、人による注釈が付けられた高品質の SFT データの利用が大きなボトルネックとなり、合成トレーニング データへの依存度を高める必要があります。
この研究では、World Knowledge Tree と Self-Reflection Refinement を組み込んで高品質の SFT データを大規模に生成する、新しい 2 段階の合成データ生成フレームワークである Condor を紹介します。
私たちの実験結果は、Condor が生成したわずか 20,000 個のサンプルに基づいて微調整されたベース モデルが、対応するモデルと比較して優れたパフォーマンスを達成することを示しています。
Condor の追加の改良段階により、さまざまなスケール (最大 72B) での LLM の反復的な自己改善がさらに可能になり、アプローチの有効性が検証されます。
さらに、トレーニング後の合成データのスケーリングに関する調査により、パフォーマンス向上のための未踏の潜在的な可能性が大幅に明らかになり、将来の研究に有望な道が開かれます。
要約(オリジナル)
The quality of Supervised Fine-Tuning (SFT) data plays a critical role in enhancing the conversational capabilities of Large Language Models (LLMs). However, as LLMs become more advanced, the availability of high-quality human-annotated SFT data has become a significant bottleneck, necessitating a greater reliance on synthetic training data. In this work, we introduce Condor, a novel two-stage synthetic data generation framework that incorporates World Knowledge Tree and Self-Reflection Refinement to produce high-quality SFT data at scale. Our experimental results demonstrate that a base model fine-tuned on only 20K Condor-generated samples achieves superior performance compared to counterparts. The additional refinement stage in Condor further enables iterative self-improvement for LLMs at various scales (up to 72B), validating the effectiveness of our approach. Furthermore, our investigation into the scaling for synthetic data in post-training reveals substantial unexplored potential for performance improvements, opening promising avenues for future research.
arxiv情報
著者 | Maosong Cao,Taolin Zhang,Mo Li,Chuyu Zhang,Yunxin Liu,Haodong Duan,Songyang Zhang,Kai Chen |
発行日 | 2025-01-21 16:44:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google