Automatic Instruction Optimization for Open-source LLM Instruction Tuning

要約

命令のチューニングは、言語学習モデル (LLM) が人間の命令に応答できるようにするために重要です。
チューニングに使用される命令ペアの品質は、LLM のパフォーマンスに大きく影響します。
ただし、高品質の命令データセットを手動で作成するにはコストがかかるため、オープンソース LLM のトレーニングにおける一般的な代替手段として、LLM による命令ペアの自動生成が採用されるようになりました。
LLM で生成された命令データセットの高品質を保証するために、いくつかのアプローチが提案されています。
それにもかかわらず、既存の方法は、サンプルの大部分をフィルタリングすることによってデータセットの完全性を損なうか、産業用途には適していません。
このペーパーでは、低品質のサンプルを破棄するのではなく、データセット内のサンプルの自動改訂を通じて指導データセットの品質を向上させる新しいアプローチである CoachLM を提案します。
CoachLM は人間の専門家によって修正されたサンプルからトレーニングされ、データセット内の高品質サンプルの割合が 17.7% から 78.9% に大幅に増加します。
CoachLM の有効性は、さまざまな実際の指導テスト セットでさらに評価されます。
結果は、CoachLM が命令調整済み LLM の命令追従機能を平均 29.9% 向上させ、パラメーター数がほぼ 2 倍であるより大きな LLM をも上回っていることを示しています。
さらに、CoachLM はファーウェイの LLM のデータ管理システムに導入され、40,000 の実際の命令ペアのクリーニング効率が最大 20% 向上しました。
CoachLMの学習データとコードを公開しています(https://github.com/lunyiliu/CoachLM)。

要約(オリジナル)

Instruction tuning is crucial for enabling Language Learning Models (LLMs) in responding to human instructions. The quality of instruction pairs used for tuning greatly affects the performance of LLMs. However, the manual creation of high-quality instruction datasets is costly, leading to the adoption of automatic generation of instruction pairs by LLMs as a popular alternative in the training of open-source LLMs. To ensure the high quality of LLM-generated instruction datasets, several approaches have been proposed. Nevertheless, existing methods either compromise dataset integrity by filtering a large proportion of samples, or are unsuitable for industrial applications. In this paper, instead of discarding low-quality samples, we propose CoachLM, a novel approach to enhance the quality of instruction datasets through automatic revisions on samples in the dataset. CoachLM is trained from the samples revised by human experts and significantly increases the proportion of high-quality samples in the dataset from 17.7% to 78.9%. The effectiveness of CoachLM is further assessed on various real-world instruction test sets. The results show that CoachLM improves the instruction-following capabilities of the instruction-tuned LLM by an average of 29.9%, which even surpasses larger LLMs with nearly twice the number of parameters. Furthermore, CoachLM is successfully deployed in a data management system for LLMs at Huawei, resulting in an efficiency improvement of up to 20% in the cleaning of 40k real-world instruction pairs. We release the training data and code of CoachLM (https://github.com/lunyiliu/CoachLM).

arxiv情報

著者 Yilun Liu,Shimin Tao,Xiaofeng Zhao,Ming Zhu,Wenbing Ma,Junhao Zhu,Chang Su,Yutai Hou,Miao Zhang,Min Zhang,Hongxia Ma,Li Zhang,Hao Yang,Yanfei Jiang
発行日 2023-11-22 09:04:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク