要約
大規模言語モデル (LLM) はさまざまなタスクで顕著な機能を実証していますが、さらなる進化は高品質のトレーニング データの欠如に限られています。
さらに、従来のトレーニング アプローチは専門家がラベル付けしたデータに過度に依存しており、LLM のパフォーマンスに上限を設けています。
この問題に対処するために、私たちは、データを自律的に生成、クリーニング、レビューし、好みの情報で注釈を付けることによって LLM 自体をトレーニングできるようにする、LANCE と呼ばれる新しいパラダイムを提案します。
私たちのアプローチは、LLM が継続的に自己進化するデータ エンジニアとして機能し、トレーニング後のデータ構築プロセスの時間とコストを大幅に削減できることを示しています。
Qwen2 のさまざまなバリエーションで微調整を繰り返すことで、さまざまなタスクにわたる LANCE の有効性を検証し、LANCE がモデルのパフォーマンスを継続的に向上させ、高品質のデータ生成を維持できることを示しました。
8 つのベンチマーク ディメンションにわたって、LANCE は Qwen2-7B で 3.36、Qwen2-7B-Instruct で 2.70 の平均スコア向上をもたらしました。
自律的なデータ構築を備えたこのトレーニング パラダイムは、人間の専門家や外部モデルへの依存を減らすだけでなく、データが人間の価値観や好みと一致することを保証し、人間の能力を超える可能性のある将来の超知能システムの開発への道を開きます。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities on various tasks, while the further evolvement is limited to the lack of high-quality training data. In addition, traditional training approaches rely too much on expert-labeled data, setting an upper limit on the performance of LLMs. To address this issue, we propose a novel paradigm that enables LLMs to train itself by autonomously generating, cleaning, reviewing, and annotating data with preference information, named LANCE. Our approach demonstrates that LLMs can serve as continuous self-evolving data engineers, significantly reducing the time and cost of the post-training data construction process. Through iterative fine-tuning on different variants of the Qwen2, we validate the effectiveness of LANCE across various tasks, showing that it can continuously improve model performance and maintain high-quality data generation. Across eight benchmark dimensions, LANCE resulted in an average score enhancement of 3.36 for Qwen2-7B and 2.70 for Qwen2-7B-Instruct. This training paradigm with autonomous data construction not only reduces the reliance on human experts or external models but also ensures that the data aligns with human values and preferences, paving the way for the development of future superintelligent systems that can exceed human capabilities.
arxiv情報
著者 | Peidong Wang,Ming Wang,Zhiming Ma,Xiaocui Yang,Shi Feng,Daling Wang,Yifei Zhang |
発行日 | 2024-12-19 18:28:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google