要約
人間のフィードバックから強化学習するアルゴリズムである Self-Play Preference Optimization (SPO) を紹介します。
私たちのアプローチは、報酬モデルのトレーニングや不安定な敵対的トレーニングを必要としないという点で最小限であり、実装がかなり簡単です。
私たちのアプローチは、逐次予測へのオフラインアプローチを悩ませる複合誤差に対して堅牢でありながら、非マルコフ、自動詞、確率的選好を明らかに処理するという点で最大主義的です。
前述の品質を達成するために、私たちはミニマックス勝者 (MW) の概念に基づいて構築します。これは、選好からの学習を 2 つの政策間のゼロサム ゲームとして組み立てる社会選択理論の文献からの選好集約の概念です。
このゲームの対称性を活用することで、MW を計算するために 2 つのポリシーを決闘させる従来の手法を使用するのではなく、強力な収束保証を維持しながら、単一のエージェントを単純にそれ自体と対戦させることができることを証明しました。
実際には、これはポリシーから複数の軌跡をサンプリングし、評価者または選好モデルにそれらを比較するよう依頼し、特定の軌跡の報酬として勝利の割合を使用することに相当します。
私たちは、一連の連続制御タスクにおいて、人間の判断を集約する際に実際に頻繁に発生する自動詞的および確率的選好に対する堅牢性を維持しながら、報酬モデルベースのアプローチよりも大幅に効率的に学習できることを実証します。
要約(オリジナル)
We present Self-Play Preference Optimization (SPO), an algorithm for reinforcement learning from human feedback. Our approach is minimalist in that it does not require training a reward model nor unstable adversarial training and is therefore rather simple to implement. Our approach is maximalist in that it provably handles non-Markovian, intransitive, and stochastic preferences while being robust to the compounding errors that plague offline approaches to sequential prediction. To achieve the preceding qualities, we build upon the concept of a Minimax Winner (MW), a notion of preference aggregation from the social choice theory literature that frames learning from preferences as a zero-sum game between two policies. By leveraging the symmetry of this game, we prove that rather than using the traditional technique of dueling two policies to compute the MW, we can simply have a single agent play against itself while maintaining strong convergence guarantees. Practically, this corresponds to sampling multiple trajectories from a policy, asking a rater or preference model to compare them, and then using the proportion of wins as the reward for a particular trajectory. We demonstrate that on a suite of continuous control tasks, we are able to learn significantly more efficiently than reward-model based approaches while maintaining robustness to the intransitive and stochastic preferences that frequently occur in practice when aggregating human judgments.
arxiv情報
著者 | Gokul Swamy,Christoph Dann,Rahul Kidambi,Zhiwei Steven Wu,Alekh Agarwal |
発行日 | 2024-01-08 17:55:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google