要約
人間のフィードバックからの強化学習(RLHF)で微調整された大規模言語モデル(LLM)は、OpenAIのChatGPTやAnthropicのClaudeのように、今日まで最も広く展開されているAIモデルのいくつかで使用されています。MetaのLLaMA-2などです。これらの手法の開発には多大な努力が払われていますが、RLHFの各段階の利点と欠点についての理解はまだ限られています。このギャップを埋めるために、我々は、プロセスの各段階(すなわち~教師あり微調整(SFT)、報酬モデリング、RLHF)が2つの重要な特性、すなわち分布外(OOD)汎化と出力多様性にどのように影響するかについての広範な分析を提示する。OOD汎化は、これらのモデルが使用される実世界のシナリオの広範さを考慮すると極めて重要であり、一方、出力の多様性は、様々な出力を生成するモデルの能力を意味し、様々なユースケースにとって重要である。我々は、要約タスクと命令追従タスクの両方について、2つの基本モデルで分析を行った。RLHFは、特に訓練とテストの間の分布シフトが大きくなるほど、新しい入力に対してSFTよりも良好に汎化することがわかった。しかし、RLHFは、様々な指標において、SFTと比較して出力の多様性を著しく減少させる。これは、現在のLLM微調整手法において、汎化と多様性の間にトレードオフがあることを示唆している。我々の結果は、用途に応じてどの微調整手法を用いるべきかについての指針を与えるとともに、汎化と多様性のトレードオフを改善するためにさらなる研究が必要であることを示している。
要約(オリジナル)
Large language models (LLMs) fine-tuned with reinforcement learning from human feedback (RLHF) have been used in some of the most widely deployed AI models to date, such as OpenAI’s ChatGPT or Anthropic’s Claude. % , or Meta’s LLaMA-2. While there has been significant work developing these methods, our understanding of the benefits and downsides of each stage in RLHF is still limited. To fill this gap, we present an extensive analysis of how each stage of the process (i.e.~supervised fine-tuning (SFT), reward modelling, and RLHF) affects two key properties: out-of-distribution (OOD) generalisation and output diversity. OOD generalisation is crucial given the wide range of real-world scenarios in which these models are being used, while output diversity refers to the model’s ability to generate varied outputs and is important for a variety of use cases. We perform our analysis across two base models on both summarisation and instruction following tasks, the latter being highly relevant for current LLM use cases. We find that RLHF generalises better than SFT to new inputs, particularly as the distribution shift between train and test becomes larger. However, RLHF significantly reduces output diversity compared to SFT across a variety of measures, implying a tradeoff in current LLM fine-tuning methods between generalisation and diversity. Our results provide guidance on which fine-tuning method should be used depending on the application, and show that more research is needed to improve the tradeoff between generalisation and diversity.
arxiv情報
著者 | Robert Kirk,Ishita Mediratta,Christoforos Nalmpantis,Jelena Luketina,Eric Hambro,Edward Grefenstette,Roberta Raileanu |
発行日 | 2024-01-03 11:58:42+00:00 |
arxivサイト | arxiv_id(pdf) |