要約
最近では、LLaMA のようなオープンソースの大規模言語モデルが登場しています。
最近の開発には、教師あり微調整 (SFT) と強化学習微調整 (RLFT) が組み込まれており、これらのモデルを人間の目標に合わせています。
ただし、SFT メソッドは混合品質のすべてのトレーニング データを同等に扱いますが、RLFT メソッドは高品質のペアごとまたはランキングベースの嗜好データを必要とします。
この研究では、混合品質データを使用してオープンソース言語モデルを進化させる、OpenChat という名前の新しいフレームワークを紹介します。
具体的には、優先ラベルのない、大部分の最適化されていないデータと混合された少量の専門家データで構成される一般的な SFT トレーニング データを考慮します。
私たちは C(onditioned)-RLFT を提案します。これは、さまざまなデータ ソースを粗粒度の報酬ラベルと見なし、補完的なデータ品質情報を活用するためにクラス条件付きポリシーを学習します。
興味深いことに、C-RLFT の最適なポリシーは、単一段階の RL フリーの教師あり学習を通じて簡単に解決できます。これは軽量で、コストのかかる人間の好みのラベル付けを回避します。
3 つの標準ベンチマークでの広範な実験を通じて、C-RLFT で微調整された openchat-13b は、すべての 13b オープンソース言語モデルの中で最高の平均パフォーマンスを達成しました。
さらに、AGIEval を使用してモデルの汎化パフォーマンスを検証します。このパフォーマンスでは、openchat-13b のみがベース モデルを上回っています。
最後に、OpenChat の有効性と堅牢性を明らかにするために一連の分析を実施します。
私たちのコード、データ、モデルは https://github.com/imoneoi/openchat で公開されています。
要約(オリジナル)
Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at https://github.com/imoneoi/openchat.
arxiv情報
著者 | Guan Wang,Sijie Cheng,Xianyuan Zhan,Xiangang Li,Sen Song,Yang Liu |
発行日 | 2023-09-20 11:54:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google