Fine-tuning Language Models with Generative Adversarial Feedback

要約

【タイトル】生成的対抗フィードバックを用いた言語モデルの微調整

【要約】
– Reinforcement Learning with Human Feedback(RLHF)は、人間が望む価値観に言語モデルを合わせることで、大規模な言語モデル(LLMs)の性能を大幅に向上させることができることが示されている。
– しかし、RLHFは人間の評価者の専門的な知識や生産性の制約によって制限される。
– この研究では、RLHFの代替手段である生成的対抗フィードバックを用いた強化学習(RLGAF)について調査している。
– 予備的な研究結果は、RLGAFがRLHFの制限を受けずにLLMsの出力を調整するのに役立つことを示しており、AIの整合性を自動化するための有望な研究の方向性が示唆されている。

要約(オリジナル)

Reinforcement Learning with Human Feedback (RLHF) has been demonstrated to significantly enhance the performance of large language models (LLMs) by aligning their outputs with desired human values. However, RLHF is constrained by the expertise and productivity limitations of human evaluators. In this study, we investigate an alternative approach: Reinforcement Learning with Generative Adversarial Feedback (RLGAF) to RLHF. Our preliminary findings indicate that RLGAF can help align LLMs outputs while not suffering from the inherent restrictions of RLHF, suggesting promising avenues for further research on automating AI alignment.

arxiv情報

著者 Zhang Ze Yu,Lau Jia Jaw,Wong Qin Jiang,Zhang Hui
発行日 2023-05-09 17:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク