Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models

要約

この研究では、大規模言語モデル (LLM) をオフラインの嗜好データと調整するという課題を研究しています。
特にヒューマンフィードバックからの強化学習(RLHF)による調整に重点を置いています。
一般的なプリファレンス最適化手法は、実際には良好な経験的パフォーマンスを示しますが、理論的には最適なポリシーに収束することが保証されておらず、古典的なオフライン強化学習 (RL) の結果によってデータ範囲がまばらな場合には失敗する可能性があります。
一方、最近の研究では、証明可能な保証を備えた、理論に基づいたプリファレンス最適化手法に焦点が当てられていますが、これらは LLM アライメントのような大規模なアプリケーションにとっては計算効率が良くありません。
このギャップを埋めるために、私たちは SPAC を提案します。SPAC は、オフライン RL 文献からの平均悲観テクニックに触発された、セルフプレイを備えた新しいオフライン選好最適化手法であり、LLM アラインメントに対する最初の証明可能でスケーラブルなアプローチです。
私たちは、一般関数近似設定の単一ポリシー集中性の下での収束に関する理論的分析を提供し、Open LLM Leaderboard 評価を使用して 7B Mistral モデルでの LLM アラインメントに対する競争力のある経験的パフォーマンスを実証します。

要約(オリジナル)

This work studies the challenge of aligning large language models (LLMs) with offline preference data. We focus on alignment by Reinforcement Learning from Human Feedback (RLHF) in particular. While popular preference optimization methods exhibit good empirical performance in practice, they are not theoretically guaranteed to converge to the optimal policy and can provably fail when the data coverage is sparse by classical offline reinforcement learning (RL) results. On the other hand, a recent line of work has focused on theoretically motivated preference optimization methods with provable guarantees, but these are not computationally efficient for large-scale applications like LLM alignment. To bridge this gap, we propose SPAC, a new offline preference optimization method with self-play, inspired by the on-average pessimism technique from the offline RL literature, to be the first provable and scalable approach to LLM alignment. We both provide theoretical analysis for its convergence under single-policy concentrability for the general function approximation setting and demonstrate its competitive empirical performance for LLM alignment on a 7B Mistral model with Open LLM Leaderboard evaluations.

arxiv情報

著者 Xiang Ji,Sanjeev Kulkarni,Mengdi Wang,Tengyang Xie
発行日 2024-06-06 17:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク