要約
特定のトレーニング サンプルの学習が他のサンプルのモデルの予測にどのような影響を与えるかを説明する学習ダイナミクスは、深層学習システムの動作を理解するための強力なツールを提供します。
私たちは、さまざまな潜在的な反応の間で影響がどのように蓄積されるかを段階的に分解して分析することにより、さまざまな種類の微調整中の大規模な言語モデルの学習ダイナミクスを研究します。
私たちのフレームワークは、命令調整と設定調整の両方について、一般的なアルゴリズムのトレーニングに関する多くの興味深い観察を統一的に解釈することを可能にします。
特に、なぜ特定の種類の幻覚が微調整後に強化されるのかについての仮説的な説明を提案します。たとえば、モデルは質問 B の応答でフレーズや事実を使用して質問 A に答えるか、モデルは生成時に同様の単純なフレーズを繰り返し続ける可能性があります。
応答。
また、フレームワークを拡張し、ポリシー外の直接優先最適化 (DPO) で以前に観察された、DPO を長時間実行すると望ましい出力さえ得られにくくなる現象を説明するために、独自の「絞り込み効果」を強調します。
このフレームワークは、ポリシーに基づく DPO やその他のバリエーションの利点がどこから来るのかについての洞察も提供します。
この分析は、LLM の微調整を理解するための新しい視点を提供するだけでなく、アライメントのパフォーマンスを向上させるためのシンプルで効果的な方法も示唆します。
要約(オリジナル)
Learning dynamics, which describes how the learning of specific training examples influences the model’s predictions on other examples, gives us a powerful tool for understanding the behavior of deep learning systems. We study the learning dynamics of large language models during different types of finetuning, by analyzing the step-wise decomposition of how influence accumulates among different potential responses. Our framework allows a uniform interpretation of many interesting observations about the training of popular algorithms for both instruction tuning and preference tuning. In particular, we propose a hypothetical explanation of why specific types of hallucination are strengthened after finetuning, e.g., the model might use phrases or facts in the response for question B to answer question A, or the model might keep repeating similar simple phrases when generating responses. We also extend our framework and highlight a unique ‘squeezing effect’ to explain a previously observed phenomenon in off-policy direct preference optimization (DPO), where running DPO for too long makes even the desired outputs less likely. This framework also provides insights into where the benefits of on-policy DPO and other variants come from. The analysis not only provides a novel perspective of understanding LLM’s finetuning but also inspires a simple, effective method to improve alignment performance.
arxiv情報
| 著者 | Yi Ren,Danica J. Sutherland | 
| 発行日 | 2024-10-02 16:47:30+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
