要約
Direct Preference Optimization (DPO) や Identity Preference Optimization (IPO) などの Direct Alignment Algorithms (DAA) は、言語モデルを調整するための Proximal Policy Optimization (PPO) などのオンライン Reinforcement Learning from Human Feedback (RLHF) アルゴリズムの代替として登場しました。
明示的な報酬モデリングを必要とせず、人間の好みに合わせて調整できます。
これらの方法は通常、元のモデルの動作に近い状態を維持しながら、より悪い (好ましくない) 完了を生成する可能性を高めながら、より良い (好ましい) 完了を生成する可能性を高めることを目的としています。
この研究では、最先端の DAA における完了の可能性とモデルのパフォーマンスの関係を調査し、可能性の過剰最適化という重大な問題を特定します。
予想に反して、より良い完了の可能性が高く、より良い完了の可能性とより悪い完了の可能性の間のマージンがより大きいことは、必ずしもパフォーマンスの向上につながるわけではなく、パフォーマンスを低下させる可能性さえあることがわかりました。
私たちの分析では、可能性が高いほど事実に基づいた知識パターンの記憶力が高まる一方で、完了する可能性がわずかに低いほど出力の多様性が向上する傾向があり、その結果、まだ見ぬシナリオへの一般化が向上することが明らかになりました。
さらに、過度に最適化された出力ダイバーシティがパフォーマンスに悪影響を及ぼし始めることを示す 2 つの重要な指標、つまり、Top-k トークン上のエントロピーの減少と Top-k の確率質量の減少を特定します。私たちの実験結果は、これらの指標が、さまざまな条件下でパフォーマンスが低下する信頼性の高い兆候であることを検証しています。
正則化により、過剰な最適化を防止し、人間の好みとの整合性を向上させます。
要約(オリジナル)
Direct Alignment Algorithms (DAAs), such as Direct Preference Optimisation (DPO) and Identity Preference Optimisation (IPO), have emerged as alternatives to online Reinforcement Learning from Human Feedback (RLHF) algorithms such as Proximal Policy Optimisation (PPO) for aligning language models to human preferences, without the need for explicit reward modelling. These methods generally aim to increase the likelihood of generating better (preferred) completions while discouraging worse (non-preferred) ones, while staying close to the original model’s behaviour. In this work, we explore the relationship between completion likelihood and model performance in state-of-the-art DAAs, and identify a critical issue of likelihood over-optimisation. Contrary to expectations, we find that higher likelihood of better completions and larger margins between better and worse completion likelihoods do not necessarily lead to better performance, and may even degrade it. Our analysis reveals that while higher likelihood correlates with better memorisation of factual knowledge patterns, a slightly lower completion likelihood tends to improve output diversity, thus leading to better generalisation to unseen scenarios. Moreover, we identify two key indicators that signal when over-optimised output diversity begins to harm performance: Decreasing Entropy over Top-k Tokens and Diminishing Top-k Probability Mass. Our experimental results validate that these indicators are reliable signs of declining performance under different regularisations, helping prevent over-optimisation and improve alignment with human preferences.
arxiv情報
著者 | Zhengyan Shi,Sander Land,Acyr Locatelli,Matthieu Geist,Max Bartolo |
発行日 | 2024-10-15 15:14:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google