要約
ChatGPT の広範な使用により、人間のフィードバックからの強化学習の可能性が浮き彫りになりました。
ただし、そのトレーニング パイプラインは、リソースを大量に消費するプロセスである手動のランキングに依存しています。
人件費を削減するために、人間のアノテーターの必要性を排除しながら、言語モデルを微調整するために Proximal-Policy-Optimization を適用する自己教師ありテキスト ランキング アプローチを提案します。
私たちの方法は、言語モデルが各入力に対して多様な応答を生成することを促す、確率的サンプリングから始まります。
次に、TextRank および ISODATA アルゴリズムを使用して、セマンティクスに基づいてこれらの応答をランク付けし、クラスター化します。
続いて、ランクを学習し、生成ポリシーを最適化するための報酬モデルを構築します。
3 つのタスクに対して 2 つの言語モデルを使用して実施された実験結果は、私たちの方法でトレーニングされたモデルが BLEU、GLEU、および METEOR スコアに関してベースラインを大幅に上回ることを示しています。
さらに、私たちの手動評価では、ランキング結果が人間のランキング結果と著しく高い一致性を示していることがわかります。
この研究は、近接ポリシー誘導モデルのトレーニング コストを大幅に削減し、言語モデルの自己修正の可能性を示しています。
要約(オリジナル)
Wide usage of ChatGPT has highlighted the potential of reinforcement learning from human feedback. However, its training pipeline relies on manual ranking, a resource-intensive process. To reduce labor costs, we propose a self-supervised text ranking approach for applying Proximal-Policy-Optimization to fine-tune language models while eliminating the need for human annotators. Our method begins with probabilistic sampling to encourage a language model to generate diverse responses for each input. We then employ TextRank and ISODATA algorithms to rank and cluster these responses based on their semantics. Subsequently, we construct a reward model to learn the rank and optimize our generative policy. Our experimental results, conducted using two language models on three tasks, demonstrate that the models trained by our method considerably outperform baselines regarding BLEU, GLEU, and METEOR scores. Furthermore, our manual evaluation shows that our ranking results exhibit a remarkably high consistency with that of humans. This research significantly reduces training costs of proximal policy-guided models and demonstrates the potential for self-correction of language models.
arxiv情報
著者 | Shuo Yang,Gjergji Kasneci |
発行日 | 2024-02-28 12:24:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google