Self-Improving Robust Preference Optimization

要約

PPO や DPO などのオンラインとオフラインの両方の RLHF 手法は、AI を人間の好みに合わせることに非常に成功しています。
既存の手法は成功にもかかわらず、最適なソリューションがタスクに大きく依存する (つまり、配布外 (OOD) タスクに対して堅牢ではない) という根本的な問題に悩まされています。
ここでは、タスクの変更に対して完全に堅牢な、実用的で数学的原理に基づいたオフライン RLHF フレームワークである自己改善型ロバスト優先最適化 SRPO を提案することで、この課題に対処します。
SRPO の重要なアイデアは、人間の好みから学習する問題を自己改善プロセスとして位置づけることです。これは、自己改善政策と社会における生成政策の共同最適化を目的とした最小-最大目標の観点から数学的に表現できます。
敵対的なファッション。
この最適化問題の解決策はトレーニング タスクから独立しているため、その変更に対して堅牢です。
次に、この目標が、報酬モデルやオンライン推論を必要とせずに、標準的な教師あり最適化手法を使用して大規模に最適化できる、非敵対的なオフライン損失の形で再表現できることを示します。
人間 (GOLD) の完了に対する AI 勝率 (WR) の観点から SRPO の有効性を示します。
特に、SRPO が OOD XSUM データセットで評価された場合、5 回の自己改訂後に有名な DPO を 15% の差で上回り、90% の WR を達成しました。

要約(オリジナル)

Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%.

arxiv情報

著者 Eugene Choi,Arash Ahmadian,Matthieu Geist,Oilvier Pietquin,Mohammad Gheshlaghi Azar
発行日 2024-06-07 17:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク