SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking

要約

最近の研究では、人間の専門家による一貫した応答スタイルを維持し、トレーニング セットのデータ品質を向上させることで、必要なトレーニング サンプルの数を減らしながら、微調整された大規模言語モデル (LLM) のパフォーマンスを大幅に向上できることが示されています。
ただし、スタイルの正確な定義と、スタイル、データ品質、LLM パフォーマンスの関係は依然として不明です。
この研究では、応答スタイルをプレゼンテーション スタイルと構成スタイルに分解し、同様の品質のトレーニング データの中で、スタイルの一貫性が高いデータが LLM のパフォーマンスの向上につながることを発見しました。
これにヒントを得て、応答のスタイルの一貫性に基づいて、トレーニング セット内の指示と応答のペアに自動的に優先順位を付けるスタイル一貫性を意識した応答ランキング (SCAR) を導入します。
データセット全体の上位 25% から 0.7% の範囲で、最もスタイルの一貫したサンプルを選択することで、微調整された LLM は、コーディングや自由回答形式の質問において、データセット全体でトレーニングされたモデルのパフォーマンスと同等、またはそれを超えることができます。
ベンチマークに答える。
コードとデータは https://github.com/zhuang-li/SCAR で入手できます。

要約(オリジナル)

Recent studies have shown that maintaining a consistent response style by human experts and enhancing data quality in training sets can significantly improve the performance of fine-tuned Large Language Models (LLMs) while reducing the number of training examples needed. However, the precise definition of style and the relationship between style, data quality, and LLM performance remains unclear. This research decomposes response style into presentation and composition styles and finds that, among training data of similar quality, those with higher style consistency lead to better LLM performance. Inspired by this, we introduce Style Consistency-Aware Response Ranking (SCAR), which automatically prioritizes instruction-response pairs in the training set based on their response stylistic consistency. By selecting the most style-consistent examples, ranging from the top 25% to 0.7% of the full dataset, the fine-tuned LLMs can match or even surpass the performance of models trained on the entire dataset in coding and open-ended question-answering benchmarks. Code and data are available at https://github.com/zhuang-li/SCAR .

arxiv情報

著者 Zhuang Li,Yuncheng Hua,Thuy-Trang Vu,Haolan Zhan,Lizhen Qu,Gholamreza Haffari
発行日 2024-07-01 14:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク