要約
大規模言語モデル (LLM) は、人間のフィードバックからの強化学習 (RLHF) によって人間の好みに合わせられます。
効果的なデータ サンプリングは、モデルのトレーニングの効率を決定し、モデルが有益なサンプルから確実に学習できるようにするため、RLHF にとって非常に重要です。
より良いデータ生成を実現するために、Preference-Guided Reflective Sampling (PRS) と呼ばれる新しいサンプリング方法を提案します。
PRS は、自然言語で記述された明示的に指定されたユーザー設定への最適化プロセスとして応答生成を構成します。
ツリーベースの生成フレームワークを採用して効率的なサンプリング プロセスを可能にし、優先順位に従って生成の方向を導き、適応的な自己調整によってサンプリング空間をより適切に探索します。
特に、PRS は LLM をさまざまな好みに合わせて調整できます。
私たちは、指示に従うための好みに応じたテキスト生成と、キーワードに焦点を当てた文書の要約を研究しています。
私たちの調査結果は、PRS がさまざまな LLM ポリシーにわたって、強力なベースラインよりもはるかに高い報酬を伴うトレーニング データを生成することを示しています。
PRS は RL 後のトレーニングにも優れています。
要約(オリジナル)
Large language models (LLMs) are aligned with human preferences by reinforcement learning from human feedback (RLHF). Effective data sampling is crucial for RLHF, as it determines the efficiency of model training, ensuring that models learn from the informative samples. To achieve better data generation, we propose a new sampling method called Preference-Guided Reflective Sampling (PRS). PRS frames the response generation as an optimization process to the explicitly specified user preference described in natural language. It employs a tree-based generation framework to enable an efficient sampling process, which guides the direction of generation through preference and better explores the sampling space with adaptive self-refinement. Notably, PRS can align LLMs to diverse preferences. We study preference-controlled text generation for instruction following and keyword-focused document summarization. Our findings indicate that PRS, across different LLM policies, generates training data with much higher rewards than strong baselines. PRS also excels in post-RL training.
arxiv情報
著者 | Hai Ye,Hwee Tou Ng |
発行日 | 2024-08-22 07:18:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google