要約
大規模言語モデルは、さまざまな言語タスクにおいて優れた機能を実証していますが、人間の期待と乖離したコンテンツを生成する可能性があり、倫理的および法的懸念が生じます。
したがって、安全性とコンプライアンスを確保するには、限界を調査し、モデルに制限を実装することが重要であり、ヒューマン フィードバックからの強化学習 (RLHF) が主要な方法となります。
RLHF ステージでは安定性とスケーラビリティに課題があるため、研究者は RLHF と同等の効果を達成するための代替方法を模索しています。
ただし、これらの方法は多くの場合、大規模で高品質のデータセットに依存しており、生成されたデータを非効率的に利用します。
この問題に対処するために、私たちは PSLE (つまり、言語モデル調整のための漸進的選択的ラベル拡張) を提案します。これは、出力を人間の期待に合わせて調整するための原則に基づいてモデルをガイドすることで、生成されたすべてのデータを完全に活用するフレームワークです。
動的に更新されるしきい値を使用する当社のアプローチでは、生成されたすべての応答を組み込み、対応する報酬スコアに基づいて重み付けすることで、効率的なデータ利用を保証します。
複数のデータセットに対する実験結果は、既存の言語モデルのアライメント手法と比較した PSLE の有効性を示しています。
要約(オリジナル)
Large Language Models have demonstrated impressive capabilities in various language tasks but may produce content that misaligns with human expectations, raising ethical and legal concerns. Therefore, it is important to explore the limitations and implement restrictions on the models to ensure safety and compliance, with Reinforcement Learning from Human Feedback (RLHF) being the primary method. Due to challenges in stability and scalability with the RLHF stages, researchers are exploring alternative methods to achieve effects comparable to those of RLHF. However, these methods often depend on large high-quality datasets and inefficiently utilize generated data. To deal with this problem, we propose PSLE, i.e., Progressively Selective Label Enhancement for Language Model Alignment, a framework that fully utilizes all generated data by guiding the model with principles to align outputs with human expectations. Using a dynamically updated threshold, our approach ensures efficient data utilization by incorporating all generated responses and weighting them based on their corresponding reward scores. Experimental results on multiple datasets demonstrate the effectiveness of PSLE compared to existing language model alignment methods.
arxiv情報
著者 | Biao Liu,Ning Xu,Xin Geng |
発行日 | 2024-08-05 16:21:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google