要約
補強学習、好みの最適化、または監視された微調整のいずれかを通じて、言語モデルの訓練後のトレーニングは、出力確率分布を研ぎ澄まし、生成された応答の多様性を減らす傾向があります。
これは、さまざまな応答が望まれる創造的な生成タスクにとって特に問題です。
この作業では、世代の品質を維持しながら、標準のパイプラインよりもはるかに多様な応答を生成することを学習する最適化方法である多様な優先最適化(DIVPO)を紹介します。
DivPoでは、最初に応答のプールとそれらの多様性の尺度を考慮し、選択した例をよりまれであるが高品質であると選択することにより、優先ペアが選択されますが、拒否された例はより一般的ですが、低品質です。
Divpoは、45.6%の多様なペルソナ属性を生成し、ストーリーの多様性が74.6%増加し、標準的なベースラインと同様の勝利を維持します。
要約(オリジナル)
Post-training of language models, either through reinforcement learning, preference optimization or supervised finetuning, tends to sharpen the output probability distribution and reduce the diversity of generated responses. This is particularly a problem for creative generative tasks where varied responses are desired. In this work we introduce Diverse Preference Optimization (DivPO), an optimization method which learns to generate much more diverse responses than standard pipelines, while maintaining the quality of the generations. In DivPO, preference pairs are selected by first considering a pool of responses, and a measure of diversity among them, and selecting chosen examples as being more rare but high quality, while rejected examples are more common, but low quality. DivPO results in generating 45.6% more diverse persona attributes, and an 74.6% increase in story diversity, while maintaining similar win rates as standard baselines.
arxiv情報
著者 | Jack Lanchantin,Angelica Chen,Shehzaad Dhuliawala,Ping Yu,Jason Weston,Sainbayar Sukhbaatar,Ilia Kulikov |
発行日 | 2025-01-31 18:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google