要約
言語モデルの指示に対する応答の質を評価することは不可欠ですが、さまざまなコンテキストにわたる人間の言語は複雑であるため、困難です。
この複雑さにより、解釈が曖昧になったり一貫性がなくなったりすることが多く、正確な評価が困難になります。
この問題に対処するために、ベイズ近似に基づいてペア応答の品質に対する堅牢な不確実性推定を導入する、新しい不確実性認識報酬モデル (URM) を提案します。
選好データセットを使用してトレーニングされた不確実性対応プロキシは、応答に対する報酬をスコアリングするだけでなく、応答に固有の不確実性も評価します。
経験的な結果は、提案されたプロキシを言語モデルのトレーニングに組み込むことの大きな利点を示しています。
私たちの手法は、トレーニングのためのデータキュレーションを洗練し、ポリシー最適化目標を改善することにより、言語モデルの命令追従能力を高め、それによって Vicuna や MT ベンチなどのベンチマークで既存の手法を大幅に上回ります。
これらの発見は、私たちが提案したアプローチが言語モデルのトレーニングを大幅に進歩させ、言語モデル内の不確実性を利用する新しい方法を切り開くことを強調しています。
要約(オリジナル)
Assessing response quality to instructions in language models is vital but challenging due to the complexity of human language across different contexts. This complexity often results in ambiguous or inconsistent interpretations, making accurate assessment difficult. To address this issue, we propose a novel Uncertainty-aware Reward Model (URM) that introduces a robust uncertainty estimation for the quality of paired responses based on Bayesian approximation. Trained with preference datasets, our uncertainty-enabled proxy not only scores rewards for responses but also evaluates their inherent uncertainty. Empirical results demonstrate significant benefits of incorporating the proposed proxy into language model training. Our method boosts the instruction following capability of language models by refining data curation for training and improving policy optimization objectives, thereby surpassing existing methods by a large margin on benchmarks such as Vicuna and MT-bench. These findings highlight that our proposed approach substantially advances language model training and paves a new way of harnessing uncertainty within language models.
arxiv情報
著者 | JoonHo Lee,Jae Oh Woo,Juree Seok,Parisa Hassanzadeh,Wooseok Jang,JuYoun Son,Sima Didari,Baruch Gutow,Heng Hao,Hankyu Moon,Wenjun Hu,Yeong-Dae Kwon,Taehee Lee,Seungjai Min |
発行日 | 2024-05-10 12:14:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google