Aligning Language Models with Preferences through f-divergence Minimization

要約

言語モデルを好みに合わせることは、望ましい動作を表すターゲット分布を近似していると見なすことができます。
既存のアプローチは、ターゲット分布の関数形式と、それを近似するために使用されるアルゴリズムの両方で異なります。
たとえば、人間のフィードバックからの強化学習 (RLHF) は、目的の KL ペナルティから生じる暗黙のターゲット分布から逆 KL を最小化することに対応します。
一方、Generative Distribution Control (GDC) には明示的なターゲット分布があり、Distributional Policy Gradient (DPG) アルゴリズムを使用して、そこからフォワード KL を最小化します。
この論文では、任意のターゲット分布を近似するために任意の f ダイバージェンスを使用できるようにする新しいアプローチ f-DPG を提案します。
f-DPG は、フレームワーク (RLHF、GDC) と近似法 (DPG、KL ペナルティ付きの RL) の両方を統合します。
発散目的のさまざまな選択の実際的な利点を示し、普遍的に最適な目的は存在しないが、異なる発散は異なる目標を近似するのに適していることを示します。
たとえば、GDC では、Jensen-Shannon ダイバージェンスがフォワード KL ダイバージェンスよりも大幅に優れていることが多く、以前の研究よりも大幅に改善されていることがわかりました。

要約(オリジナル)

Aligning language models with preferences can be posed as approximating a target distribution representing some desired behavior. Existing approaches differ both in the functional form of the target distribution and the algorithm used to approximate it. For instance, Reinforcement Learning from Human Feedback (RLHF) corresponds to minimizing a reverse KL from an implicit target distribution arising from a KL penalty in the objective. On the other hand, Generative Distributional Control (GDC) has an explicit target distribution and minimizes a forward KL from it using the Distributional Policy Gradient (DPG) algorithm. In this paper, we propose a new approach, f-DPG, which allows the use of any f-divergence to approximate any target distribution. f-DPG unifies both frameworks (RLHF, GDC) and the approximation methods (DPG, RL with KL penalties). We show the practical benefits of various choices of divergence objectives and demonstrate that there is no universally optimal objective but that different divergences are good for approximating different targets. For instance, we discover that for GDC, the Jensen-Shannon divergence frequently outperforms forward KL divergence by a wide margin, leading to significant improvements over prior work.

arxiv情報

著者 Dongyoung Go,Tomasz Korbak,Germán Kruszewski,Jos Rozen,Nahyeon Ryu,Marc Dymetman
発行日 2023-02-16 10:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク