要約
強化学習フィードバックを使用して大規模な言語モデル(LLM)をトレーニングする現在の方法は、トレーニング中に複数の報酬関数の平均化に頼ることがよくあります。
これは、世代の最適下の結果につながる可能性のある個々の報酬の寸法と報酬間依存関係の重要な側面を見落としています。
この作業では、報酬の線形集約が、生成されたテキストの望ましくない特性につながる可能性のあるいくつかの脆弱性をどのように示すかを示します。
次に、ユーティリティ関数の経済理論(特にINADA条件)に触発された報酬機能の変革を提案します。これは、低報酬値に対する感度を高め、すでに高い値に対する感度を低下させます。
私たちのアプローチを、報酬を直線的に集約する既存のベースラインメソッドと比較し、稲田にインスパイアされた報酬フィードバックが従来の加重平均よりも優れていることを示します。
メソッドの違いを定量的かつ定性的に分析し、Inada変換スコアで訓練されたモデルが有害ではなく、より役立つと見ています。
要約(オリジナル)
Current methods that train large language models (LLMs) with reinforcement learning feedback, often resort to averaging outputs of multiple rewards functions during training. This overlooks crucial aspects of individual reward dimensions and inter-reward dependencies that can lead to sub-optimal outcomes in generations. In this work, we show how linear aggregation of rewards exhibits some vulnerabilities that can lead to undesired properties of generated text. We then propose a transformation of reward functions inspired by economic theory of utility functions (specifically Inada conditions), that enhances sensitivity to low reward values while diminishing sensitivity to already high values. We compare our approach to the existing baseline methods that linearly aggregate rewards and show how the Inada-inspired reward feedback is superior to traditional weighted averaging. We quantitatively and qualitatively analyse the difference in the methods, and see that models trained with Inada-transformations score as more helpful while being less harmful.
arxiv情報
著者 | Roberto-Rafael Maura-Rivero,Chirag Nagpal,Roma Patel,Francesco Visin |
発行日 | 2025-02-25 18:04:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google