Human Alignment of Large Language Models through Online Preference Optimisation

要約

言語モデルの出力を人間の好みと確実に一致させることは、便利で安全、快適なユーザー エクスペリエンスを保証するために重要です。
したがって、人間のアライメントは最近広範囲に研究されており、ヒューマン フィードバックからの強化学習 (RLHF)、直接ポリシー最適化 (DPO)、および配列尤度キャリブレーション (SLiC) などのいくつかの方法が登場しています。
この論文では、私たちの貢献は 2 つあります。
まず、最近の 2 つの調整方法、つまり Identity Policy Optimization (IPO) と Nash Mirror Descent (Nash-MD) の間の同等性を示します。
2 番目に、Nash-MD によって提案された正規化サンプリング アプローチを活用する、IPO-MD と呼ばれる IPO の一般化を導入します。
IPO はオフライン方式であるのに対し、Nash-MD は選好モデルを使用するオンライン方式であるため、この同等性は一見驚くべきように思えるかもしれません。
ただし、この同等性は、IPO のオンライン バージョンを考慮すると証明できます。つまり、両方の世代がオンライン ポリシーによってサンプリングされ、トレーニングされた優先モデルによって注釈が付けられている場合です。
このようなデータ ストリームを使用して IPO 損失を最適化することは、セルフプレイを通じて選好モデルのナッシュ均衡を見つけることと同等になります。
この等価性に基づいて、一般的な Nash-MD アルゴリズムと同様に、混合ポリシー (オンライン ポリシーと参照ポリシーの間) でデータを生成する IPO-MD アルゴリズムを導入します。
オンライン IPO と IPO-MD を、要約タスクで DPO や SLiC などの選好データに関する既存の損失の異なるオンライン バージョンと比較します。

要約(オリジナル)

Ensuring alignment of language models’ outputs with human preferences is critical to guarantee a useful, safe, and pleasant user experience. Thus, human alignment has been extensively studied recently and several methods such as Reinforcement Learning from Human Feedback (RLHF), Direct Policy Optimisation (DPO) and Sequence Likelihood Calibration (SLiC) have emerged. In this paper, our contribution is two-fold. First, we show the equivalence between two recent alignment methods, namely Identity Policy Optimisation (IPO) and Nash Mirror Descent (Nash-MD). Second, we introduce a generalisation of IPO, named IPO-MD, that leverages the regularised sampling approach proposed by Nash-MD. This equivalence may seem surprising at first sight, since IPO is an offline method whereas Nash-MD is an online method using a preference model. However, this equivalence can be proven when we consider the online version of IPO, that is when both generations are sampled by the online policy and annotated by a trained preference model. Optimising the IPO loss with such a stream of data becomes then equivalent to finding the Nash equilibrium of the preference model through self-play. Building on this equivalence, we introduce the IPO-MD algorithm that generates data with a mixture policy (between the online and reference policy) similarly as the general Nash-MD algorithm. We compare online-IPO and IPO-MD to different online versions of existing losses on preference data such as DPO and SLiC on a summarisation task.

arxiv情報

著者 Daniele Calandriello,Daniel Guo,Remi Munos,Mark Rowland,Yunhao Tang,Bernardo Avila Pires,Pierre Harvey Richemond,Charline Le Lan,Michal Valko,Tianqi Liu,Rishabh Joshi,Zeyu Zheng,Bilal Piot
発行日 2024-03-13 15:47:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク