OpenChat: Advancing Open-source Language Models with Mixed-Quality Data


最近では、LLaMA のようなオープンソースの大規模言語モデルが登場しています。
最近の開発には、教師あり微調整 (SFT) と強化学習微調整 (RLFT) が組み込まれており、これらのモデルを人間の目標に合わせています。
ただし、SFT メソッドは混合品質のすべてのトレーニング データを同等に扱いますが、RLFT メソッドは高品質のペアごとまたはランキングベースの嗜好データを必要とします。
この研究では、混合品質データを使用してオープンソース言語モデルを進化させる、OpenChat という名前の新しいフレームワークを紹介します。
具体的には、優先ラベルのない、大部分の最適化されていないデータと混合された少量の専門家データで構成される一般的な SFT トレーニング データを考慮します。
私たちは C(onditioned)-RLFT を提案します。これは、さまざまなデータ ソースを粗粒度の報酬ラベルと見なし、補完的なデータ品質情報を活用するためにクラス条件付きポリシーを学習します。
興味深いことに、C-RLFT の最適なポリシーは、単一段階の RL フリーの教師あり学習を通じて簡単に解決できます。これは軽量で、コストのかかる人間の好みのラベル付けを回避します。
3 つの標準ベンチマークでの広範な実験を通じて、C-RLFT で微調整された openchat-13b は、すべての 13b オープンソース言語モデルの中で最高の平均パフォーマンスを達成しました。
さらに、AGIEval を使用してモデルの汎化パフォーマンスを検証します。このパフォーマンスでは、openchat-13b のみがベース モデルを上回っています。
最後に、OpenChat の有効性と堅牢性を明らかにするために一連の分析を実施します。
私たちのコード、データ、モデルは で公開されています。


Nowadays, open-source large language models like LLaMA have emerged. Recent developments have incorporated supervised fine-tuning (SFT) and reinforcement learning fine-tuning (RLFT) to align these models with human goals. However, SFT methods treat all training data with mixed quality equally, while RLFT methods require high-quality pairwise or ranking-based preference data. In this study, we present a novel framework, named OpenChat, to advance open-source language models with mixed-quality data. Specifically, we consider the general SFT training data, consisting of a small amount of expert data mixed with a large proportion of sub-optimal data, without any preference labels. We propose the C(onditioned)-RLFT, which regards different data sources as coarse-grained reward labels and learns a class-conditioned policy to leverage complementary data quality information. Interestingly, the optimal policy in C-RLFT can be easily solved through single-stage, RL-free supervised learning, which is lightweight and avoids costly human preference labeling. Through extensive experiments on three standard benchmarks, our openchat-13b fine-tuned with C-RLFT achieves the highest average performance among all 13b open-source language models. Moreover, we use AGIEval to validate the model generalization performance, in which only openchat-13b surpasses the base model. Finally, we conduct a series of analyses to shed light on the effectiveness and robustness of OpenChat. Our code, data, and models are publicly available at


著者 Guan Wang,Sijie Cheng,Xianyuan Zhan,Xiangang Li,Sen Song,Yang Liu
発行日 2023-09-20 11:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク