要約
ヒューマン フィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせて調整し、これらの LLM がユーザーにとって有益でわかりやすい方法で動作するようにするための重要な手法です。
しかし、強化学習に基づく人間のアライメント技術における長年の課題は、その固有の複雑さとトレーニングの難しさにあります。
この課題に対処するために、LLM を人間の好みに直接調整するための、シンプルかつ効果的な人間調整のための対照学習フレームワーク (CLHA) を紹介します。
CLHA は、データ固有の品質を考慮し、トレーニング プロセスを動的に調整することで、データ内のノイズを評価する新しいスコアリング戦略を採用しています。
同時に、CLHA はペアワイズコントラスト損失と適応教師付き微調整損失を利用して、応答を生成する可能性を適応的に変更し、人間の好みとの整合性を強化します。
高度な手法を使用する CLHA は他のアルゴリズムを上回り、広く使用されている「\textit{有益かつ無害}」データセットに対する報酬モデル スコア、自動評価、人間による評価の点で優れたパフォーマンスを示しています。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) is a crucial technique in aligning large language models (LLMs) with human preferences, ensuring these LLMs behave in beneficial and comprehensible ways to users. However, a longstanding challenge in human alignment techniques based on reinforcement learning lies in their inherent complexity and difficulty in training. To address this challenge, we present a simple yet effective Contrastive Learning Framework for Human Alignment (CLHA) to align LLMs with human preferences directly. CLHA employs a novel rescoring strategy to evaluate the noise within the data by considering its inherent quality and dynamically adjusting the training process. Simultaneously, CLHA utilizes pairwise contrastive loss and adaptive supervised fine-tuning loss to adaptively modify the likelihood of generating responses, ensuring enhanced alignment with human preferences. Using advanced methods, CLHA surpasses other algorithms, showcasing superior performance in terms of reward model scores, automatic evaluations, and human assessments on the widely used “\textit{Helpful and Harmless}” dataset.
arxiv情報
著者 | Feiteng Fang,Liang Zhu,Min Yang,Xi Feng,Jinchang Hou,Qixuan Zhao,Chengming Li,Xiping Hu,Ruifeng Xu |
発行日 | 2024-03-25 11:37:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google