要約
人間の好みに合わせることで、高コストの人的フィードバックを必要とする一方で、大規模言語モデル (LLM) が誤解を招くコンテンツや有害なコンテンツを生成することを防ぎます。
人間によるアノテーションのリソースが限られていると仮定すると、より多様なプロンプトまたはより多様なラベルを付ける応答という 2 つの異なる割り当て方法が検討されます。
それにもかかわらず、それらの影響を直接比較することはできません。
この作業では、まず微調整用のサンプル数に応じて双方の多様性を制御し、影響を直接反映することができます。
多数のプロンプトを表示する代わりに、プロンプトの数を減らしてより多くの応答をする方が、人間との整合性を高めるために LLM をトリガーするのに適していることがわかりました。
さらに、プロンプトの多様性の概念は、通常 1 桁で数値化される応答よりも複雑になる可能性があります。
その結果、プロンプトダイバーシティの新しい定式化が提案され、微調整後の LLM の最終パフォーマンスとの線形相関がさらに示唆されます。
また、データ拡張にもそれを活用し、さまざまなアルゴリズムに対するその効果を示す実験を実施します。
要約(オリジナル)
Alignment with human preference prevents large language models (LLMs) from generating misleading or toxic content while requiring high-cost human feedback. Assuming resources of human annotation are limited, there are two different ways of allocating considered: more diverse PROMPTS or more diverse RESPONSES to be labeled. Nonetheless, a straightforward comparison between their impact is absent. In this work, we first control the diversity of both sides according to the number of samples for fine-tuning, which can directly reflect their influence. We find that instead of numerous prompts, more responses but fewer prompts better trigger LLMs for human alignment. Additionally, the concept of diversity for prompts can be more complex than responses that are typically quantified by single digits. Consequently, a new formulation of prompt diversity is proposed, further implying a linear correlation with the final performance of LLMs after fine-tuning. We also leverage it on data augmentation and conduct experiments to show its effect on different algorithms.
arxiv情報
著者 | Feifan Song,Bowen Yu,Hao Lang,Haiyang Yu,Fei Huang,Houfeng Wang,Yongbin Li |
発行日 | 2024-03-30 16:48:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google