Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud

要約

さまざまなドメイン固有のタスクに LLM を特化させることが、高いパフォーマンスを達成するための重要なステップとして浮上しました。
ただし、特定のドメインでのデータセットの構築とアノテーションには常に非常にコストがかかります。
データセットの構築に優れた高価なクローズドソース LLM API を使用することとは別に、一部のオープンソース モデルは、多くのシナリオでデータセットの構築を処理できるほど強力になっています。
したがって、モデルの微調整の効率を大幅に向上させるように設計されたデータ拡張モデルのファミリーを紹介します。
十分に小さい LLM に基づいてトレーニングされたこれらのモデルは、命令拡張、命令改良、命令応答ペア拡張などの主要な機能を低い推論コストでサポートします。
この目標を達成するために、私たちはまず、パブリック リポジトリと社内データセットの両方から生成されたシード データセットを使用して自動データ収集システムを構築します。
このシステムは、強力な LLM を活用して、品質評価手法を組み込んで、指示と応答を拡張、改良、再作成します。
これに続いて、教師 LLM からタスク解決能力とテキスト合成能力を効果的に抽出するモデルのトレーニング プロセスを紹介します。
最後に、これらの機能を機械学習プラットフォームに統合して、データセットの準備とユーザーのトレーニングの両方の観点から低コストの LLM 微調整をサポートする方法を示します。
実験と応用研究により、私たちのアプローチの有効性が証明されています。

要約(オリジナル)

Specializing LLMs in various domain-specific tasks has emerged as a critical step towards achieving high performance. However, the construction and annotation of datasets in specific domains are always very costly. Apart from using superior and expensive closed-source LLM APIs to construct datasets, some open-source models have become strong enough to handle dataset construction in many scenarios. Thus, we present a family of data augmentation models designed to significantly improve the efficiency for model fine-tuning. These models, trained based on sufficiently small LLMs, support key functionalities with low inference costs: instruction expansion, instruction refinement, and instruction-response pair expansion. To fulfill this goal, we first construct an automatic data collection system with seed datasets generated from both public repositories and our in-house datasets. This system leverages powerful LLMs to expand, refine and re-write the instructions and responses, incorporating quality assessment techniques. Following this, we introduce the training process of our models, which effectively distills task-solving and text synthesis abilities from teacher LLMs. Finally, we demonstrate how we integrate these functionalities into a machine learning platform to support low-cost LLM fine-tuning from both dataset preparation and training perspectives for users. Experiments and an application study prove the effectiveness of our approach.

arxiv情報

著者 Yuanhao Yue,Chengyu Wang,Jun Huang,Peng Wang
発行日 2024-12-06 09:04:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク