The Real, the Better: Aligning Large Language Models with Online Human Behaviors

要約

大規模言語モデルの調整は、LLM が役に立たない有害な応答を生成することを回避するために広く使用され、研究されています。
しかし、長時間にわたるトレーニング プロセスと事前に定義された好みのバイアスにより、オンラインの多様な人間の好みへの適応が妨げられます。
この目的を達成するために、この論文では、実際のオンラインでの人間の行動を直接活用して LLM を調整する、人間の行動による強化学習 (RLHB) と呼ばれる調整フレームワークを提案します。
敵対生成フレームワークを採用することにより、ジェネレーターは、予想される人間の行動に従って応答するように訓練されます。
一方、ディスクリミネーターは、クエリ、応答、人間の行動の 3 つの要素が実際のオンライン環境からのものであるかどうかを検証しようとします。
自然言語形式の行動モデリングとマルチモデルの共同トレーニング メカニズムにより、アクティブかつ持続可能なオンライン調整が可能になります。
実験結果は、人間による評価と自動評価の両方によって、提案した方法の有効性を確認しました。

要約(オリジナル)

Large language model alignment is widely used and studied to avoid LLM producing unhelpful and harmful responses. However, the lengthy training process and predefined preference bias hinder adaptation to online diverse human preferences. To this end, this paper proposes an alignment framework, called Reinforcement Learning with Human Behavior (RLHB), to align LLMs by directly leveraging real online human behaviors. By taking the generative adversarial framework, the generator is trained to respond following expected human behavior; while the discriminator tries to verify whether the triplets of query, response, and human behavior come from real online environments. Behavior modeling in natural-language form and the multi-model joint training mechanism enable an active and sustainable online alignment. Experimental results confirm the effectiveness of our proposed methods by both human and automatic evaluations.

arxiv情報

著者 Guanying Jiang,Lingyong Yan,Haibo Shi,Dawei Yin
発行日 2024-05-01 15:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク