TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights

要約

直接選好最適化(Direct Preference Optimization: DPO)は、その単純さと有効性から大規模言語モデル(Large Language Models: LLM)の選好アライメントに広く採用されている。しかし、DPOはトークン間の重要度の違いを無視し、応答全体を1つのアームとして扱うバンディット問題として導出されるため、最適化効率に影響を与え、最適な結果を得ることが困難である可能性がある。本研究では、トークンの重要度に差がないため、勝ち回答でも負け回答でも各トークンの期待報酬が等しくなるDPOの最適データを提案する。しかし、実際には最適なデータセットが得られないため、偏りのない最適化を実現するために、オリジナルのデータセットを用いて重要度サンプリングを行うことを提案する。そこで、各トークンに報酬に基づく重要度の重みを割り当てる、TIS-DPOと名付けられたトークンレベルの重要度サンプリングDPO目的を提案する。先行研究に触発され、我々は一対の対照的LLMからの予測確率の差を用いてトークンの重要度重みを推定する。(1)オリジナルのLLMに対照的なプロンプトを誘導する、(2)勝利応答と敗北応答を用いて2つの別々のLLMを訓練する、(3)勝利応答と敗北応答を用いて順方向と逆方向のDPO訓練を行う。実験の結果、TIS-DPOは、無害度、有用度のアライメントと要約タスクにおいて、様々なベースライン手法を有意に上回ることが示された。また、推定された重みを可視化し、重要なトークンの位置を特定する能力を示す。

要約(オリジナル)

Direct Preference Optimization (DPO) has been widely adopted for preference alignment of Large Language Models (LLMs) due to its simplicity and effectiveness. However, DPO is derived as a bandit problem in which the whole response is treated as a single arm, ignoring the importance differences between tokens, which may affect optimization efficiency and make it difficult to achieve optimal results. In this work, we propose that the optimal data for DPO has equal expected rewards for each token in winning and losing responses, as there is no difference in token importance. However, since the optimal dataset is unavailable in practice, we propose using the original dataset for importance sampling to achieve unbiased optimization. Accordingly, we propose a token-level importance sampling DPO objective named TIS-DPO that assigns importance weights to each token based on its reward. Inspired by previous works, we estimate the token importance weights using the difference in prediction probabilities from a pair of contrastive LLMs. We explore three methods to construct these contrastive LLMs: (1) guiding the original LLM with contrastive prompts, (2) training two separate LLMs using winning and losing responses, and (3) performing forward and reverse DPO training with winning and losing responses. Experiments show that TIS-DPO significantly outperforms various baseline methods on harmlessness and helpfulness alignment and summarization tasks. We also visualize the estimated weights, demonstrating their ability to identify key token positions.

arxiv情報

著者 Aiwei Liu,Haoping Bai,Zhiyun Lu,Yanchao Sun,Xiang Kong,Simon Wang,Jiulong Shan,Albin Madappally Jose,Xiaojiang Liu,Lijie Wen,Philip S. Yu,Meng Cao
発行日 2025-02-03 08:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク