Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of Pre-trained Language Models with Proximal Policy Optimization

要約

ChatGPTが広く使われるようになったことで、人間のフィードバックからの強化学習の可能性が浮き彫りになった。しかし、その学習パイプラインは、リソース集約的なプロセスである手動ランキングに依存している。人件費を削減するために、我々は、人間のアノテーターを不要にしながら、言語モデルを微調整するためにProximal-Policy-Optimizationを適用するための自己教師付きテキストランキングアプローチを提案する。本手法は、言語モデルが各入力に対して多様な応答を生成するよう促す確率的サンプリングから始まる。次に、TextRankとISODATAのアルゴリズムを採用し、これらの応答をセマンティクスに基づいてランク付けし、クラスタ化する。その後、ランクを学習する報酬モデルを構築し、生成ポリシーを最適化する。3つのタスクに対して2つの言語モデルを用いて行った実験結果は、BLEU、GLEU、METEORスコアに関して、我々の手法で学習したモデルがベースラインを大幅に上回ることを示している。さらに、手動評価により、我々のランキング結果が人間のランキング結果と著しく高い整合性を示すことが示された。本研究は、近接的ポリシーガイドモデルの学習コストを大幅に削減し、言語モデルの自己修正の可能性を示す。

要約(オリジナル)

Wide usage of ChatGPT has highlighted the potential of reinforcement learning from human feedback. However, its training pipeline relies on manual ranking, a resource-intensive process. To reduce labor costs, we propose a self-supervised text ranking approach for applying Proximal-Policy-Optimization to fine-tune language models while eliminating the need for human annotators. Our method begins with probabilistic sampling to encourage a language model to generate diverse responses for each input. We then employ TextRank and ISODATA algorithms to rank and cluster these responses based on their semantics. Subsequently, we construct a reward model to learn the rank and optimize our generative policy. Our experimental results, conducted using two language models on three tasks, demonstrate that the models trained by our method considerably outperform baselines regarding BLEU, GLEU, and METEOR scores. Furthermore, our manual evaluation shows that our ranking results exhibit a remarkably high consistency with that of humans. This research significantly reduces training costs of proximal policy-guided models and demonstrates the potential for self-correction of language models.

arxiv情報

著者 Shuo Yang,Gjergji Kasneci
発行日 2024-03-02 23:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク