要約
ルールベースの報酬は、人間のフィードバック(RLHF)からの強化学習を改善するための有望な戦略を提供しますが、現在のアプローチはしばしば手動のルールエンジニアリングに依存しています。
Autoruleは、優先フィードバックからルールを抽出し、それらをルールベースの報酬に策定するための完全に自動化された方法を提示します。
Autorule抽出は3つの段階で動作します。これは、ユーザーの好みを解釈するための推論モデルを活用し、これらの解釈の推論チェーンから候補ルールを識別し、それらを統一されたルールセットに合成します。
最終決定されたルールセットを活用すると、言語モデル検証剤を使用して、ポリシーの最適化中に学習された報酬モデルとともにこのメトリックを補助報酬として使用して、各出力で満たされたルールの割合を計算します。
AutoRuleでLlama-3-8Bモデルをトレーニングすると、Alpacaeval2.0の長さ制御された勝利率が28.6 \%の相対的な改善、および同じ学習報酬モデルでトレーニングされたGRPOベースラインと比較して、Hold-Out MTベンチサブセットでの2回目のターンパフォーマンスの6.1 \%の相対的な増加が得られます。
私たちの分析は、抽出されたルールがデータセットの好みと良好な一致を示すことを確認しています。
Autoruleは、2つのエピソードで実行されたときに学習された報酬モデルと比較して、報酬ハッキングの減少を示していることがわかります。
最後に、我々のケーススタディは、抽出されたルールが異なるデータセットで評価されているユニークな品質をキャプチャすることを示唆しています。
抽出されたルールは付録に記載されており、コードはhttps://github.com/cxcscmu/autoruleにオープンソースが付けられています。
要約(オリジナル)
Rule-based rewards offer a promising strategy for improving reinforcement learning from human feedback (RLHF), but current approaches often rely on manual rule engineering. We present AutoRule, a fully automated method for extracting rules from preference feedback and formulating them into rule-based rewards. AutoRule extraction operates in three stages: it leverages a reasoning model to interpret user preferences, identifies candidate rules from the reasoning chain of these interpretations, and synthesizes them into a unified rule set. Leveraging the finalized rule set, we employ language-model verifiers to compute the fraction of rules satisfied by each output, using this metric as an auxiliary reward alongside the learned reward model during policy optimization. Training a Llama-3-8B model with AutoRule results in a 28.6\% relative improvement in length-controlled win rate on AlpacaEval2.0, and a 6.1\% relative gain in second-turn performance on a held-out MT-Bench subset, compared to a GRPO baseline trained with the same learned reward model but without the rule-based auxiliary reward. Our analysis confirms that the extracted rules exhibit good agreement with dataset preference. We find that AutoRule demonstrates reduced reward hacking compared to a learned reward model when run over two episodes. Finally, our case study suggests that the extracted rules capture unique qualities valued in different datasets. The extracted rules are provided in the appendix, and the code is open-sourced at https://github.com/cxcscmu/AutoRule.
arxiv情報
著者 | Tevin Wang,Chenyan Xiong |
発行日 | 2025-06-18 17:29:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google