Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation

要約

オープンソース コミュニティからの貢献により、膨大な量の命令チューニング (IT) データが出現しました。
モデルのトレーニングと評価には大量のリソース割り当てが必要となるため、高品質の IT データを選択するための効率的な方法があることが有利です。
ただし、命令データを選択する既存の方法には、脆弱な外部 API に依存する、GPT モデルのバイアスの影響を受ける、選択された命令データセットの多様性が低下するなどの制限があります。
この論文では、業界に適し、専門家と連携し、多様性が保たれた命令データ選択方法であるクラスタリングとランキング (CaR) を提案します。
CaR は 2 段階のプロセスを採用しています。まず、専門家の好みに合わせた高精度 (84.25%) のスコアリング モデルを使用して命令ペアをランク付けします。
2 番目に、クラスタリングを通じてデータセットの多様性が維持されます。
私たちの実験では、CaR は Alpaca の IT データのわずか 1.96% を効率的に選択しましたが、結果として得られた AlpaCaR モデルは GPT-4 評価で Alpaca のパフォーマンスを平均 32.1% 上回りました。
さらに、事前トレーニングされたモデルの能力が高くても、モデルのパラメーターがスケールアップしても、データ選択は一貫したパラダイムであることがわかりました。
私たちのアプローチは、5 億 5,000 万のパラメーターを備えたコンパクトなモデルを採用しており、現在の方法の財務支出のわずか 11.2% で済み、産業への導入可能性が向上します。

要約(オリジナル)

With contributions from the open-source community, a vast amount of instruction tuning (IT) data has emerged. Given the significant resource allocation required for training and evaluating models, it is advantageous to have an efficient method for selecting high-quality IT data. However, existing methods for instruction data selection have limitations such as relying on fragile external APIs, being affected by biases in GPT models, or reducing the diversity of the selected instruction dataset. In this paper, we propose an industrial-friendly, expert-aligned and diversity-preserved instruction data selection method: Clustering and Ranking (CaR). CaR employs a two-step process: first, it ranks instruction pairs using a high-accuracy (84.25%) scoring model aligned with expert preferences; second, it preserves dataset diversity through clustering. In our experiment, CaR efficiently selected a mere 1.96% of Alpaca’s IT data, yet the resulting AlpaCaR model surpassed Alpaca’s performance by an average of 32.1% in GPT-4 evaluations. Moreover, we find that data selecting is a consistent paradigm whether the pre-trained model is more capable or the model parameters scaling up. Our approach employs compact models with 550M parameters and incurs just 11.2% of the financial outlay of current methods, enhancing its industrial deployability.

arxiv情報

著者 Yuan Ge,Yilun Liu,Chi Hu,Weibin Meng,Shimin Tao,Xiaofeng Zhao,Hongxia Ma,Li Zhang,Boxing Chen,Hao Yang,Bei Li,Tong Xiao,Jingbo Zhu
発行日 2024-11-18 09:26:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク