Leveraging Web-Crawled Data for High-Quality Fine-Tuning

要約

大規模な言語モデルのほとんどは、人間が注釈を付けた高価なデータ、または特定のドメインでのパフォーマンスを保証できない GPT-4 で生成されたデータのいずれかを使用して微調整されます。
Web クロールされたデータには、セマンティックの不正確さを引き起こす書式エラーが含まれることがよくありますが、GPT-4 のような高度なモデルに依存せずに、特定のドメインで高品質の教師付き微調整を行うための貴重なソースとして機能する可能性があると私たちは主張します。
この目的を達成するために、Web クロールされたデータをより小規模な高品質データ セットと調整することで、ペアのトレーニング データセットを自動的に作成します。
このデータセットで言語モデルをトレーニングすることで、不規則な形式の Web データを高品質な形式に変換できます。
私たちの実験では、モデル変換されたデータを使用したトレーニングの方がより良い結果が得られ、中国語の数学の問題で平均スコア 9.4% も高品質のデータのみを使用したトレーニングを上回ったことが示されました。
さらに、当社の 7B モデルは、32B を超えるいくつかのオープンソース モデルを上回り、GPT-3.5 などのよく知られたクローズドソース モデルをも上回っており、当社のアプローチの有効性が強調されています。

要約(オリジナル)

Most large language models are fine-tuned using either expensive human-annotated data or GPT-4 generated data which cannot guarantee performance in certain domains. We argue that although the web-crawled data often has formatting errors causing semantic inaccuracies, it can still serve as a valuable source for high-quality supervised fine-tuning in specific domains without relying on advanced models like GPT-4. To this end, we create a paired training dataset automatically by aligning web-crawled data with a smaller set of high-quality data. By training a language model on this dataset, we can convert web data with irregular formats into high-quality ones. Our experiments show that training with the model-transformed data yields better results, surpassing training with only high-quality data by an average score of 9.4% in Chinese math problems. Additionally, our 7B model outperforms several open-source models larger than 32B and surpasses well-known closed-source models such as GPT-3.5, highlighting the efficacy of our approach.

arxiv情報

著者 Jing Zhou,Chenglin Jiang,Wei Shen,Xiao Zhou,Xiaonan He
発行日 2024-08-15 08:12:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク