Reinforcement learning for question answering in programming domain using public community scoring as a human feedback

要約

この研究では、ヒューマン フィードバックからの強化学習 (RLHF) の統合とスタック オーバーフローからのスコアの利用を通じて、プログラミングに焦点を当てたコミュニティ質問応答 (CQA) における GPT Neo 125M のパフォーマンスの強化を調査します。
Proximal Policy Optimization (PPO) による微調整には、2 つの異なる報酬モデル トレーニング戦略が採用されています。
特に、この方法によって達成されたパフォーマンスの向上は、GPT Neo 2.7B パラメータ バリアントのそれに匹敵します。
さらに、補助的なスコアリング メカニズムが導入されており、プログラミング ドメインでの応答を評価する際の従来の言語指標の限界を示しています。
この論文では、正確な分析を通じて、従来の言語指標と人間の好みに基づく報酬モデルとの乖離を考察し、ドメイン固有の評価方法が不可欠であることを強調しています。
この研究は、RLHF をプログラミング CQA に適用する際の複雑さを解明し、コンテキストを意識した評価の重要性を強調することにより、人間による集中的なフィードバックを通じて大規模言語モデルを改良する継続的な取り組みに貢献します。

要約(オリジナル)

In this study, we investigate the enhancement of the GPT Neo 125M performance in Community Question Answering (CQA) with a focus on programming, through the integration of Reinforcement Learning from Human Feedback (RLHF) and the utilization of scores from Stack Overflow. Two distinct reward model training strategies are employed for fine-tuning with Proximal Policy Optimization (PPO). Notably, the improvements in performance achieved through this method are comparable to those of GPT Neo 2.7B parameter variant. Additionally, an auxiliary scoring mechanism is introduced, which demonstrates the limitations of conventional linguistic metrics in evaluating responses in the programming domain. Through accurate analysis, this paper looks at the divergence between traditional linguistic metrics and our human-preferences-based reward model, underscoring the imperative for domain-specific evaluation methods. By elucidating the complexities involved in applying RLHF to programming CQA and accentuating the significance of context-aware evaluation, this study contributes to the ongoing efforts in refining Large Language Models through focused human feedback.

arxiv情報

著者 Alexey Gorbatovski,Sergey Kovalchuk
発行日 2024-01-19 18:49:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク