Reward Generalization in RLHF: A Topological Perspective


マクロレベルでは、RLHF 情報フローを行動分布に対する自動エンコードプロセスとして描写し、人間の好みとモデルの行動の間の分布の一貫性という RLHF の目標を形式化します。
ミクロレベルでは、RLHF における報酬一般化の理論として誘導ベイジアン ネットワークを提示し、一般化限界にきめの細かいデータセット トポロジーを導入します。
ベースラインと比較して、報酬の不確実性が最大 $\Theta(\log n/\log\log n)$ 倍減少することが示されています ($n$ はデータセットのサイズです)。
3 つの NLP タスクでの検証により、ツリーベースの報酬モデルがベースライン手法に対して 65% の平均勝率を達成し、トポロジ設計を通じて報酬の一般化が無料で向上することがわかりました。


Existing alignment methods share a common topology of information flow, where reward information is collected from humans, modeled with preference learning, and used to tune language models. However, this shared topology has not been systematically characterized, nor have its alternatives been thoroughly explored, leaving the problems of low data efficiency and unreliable generalization unaddressed. As a solution, we introduce a theoretical framework for investigating reward generalization in reinforcement learning from human feedback (RLHF), focusing on the topology of information flow at both macro and micro levels. At the macro level, we portray the RLHF information flow as an autoencoding process over behavior distributions, formalizing the RLHF objective of distributional consistency between human preference and model behavior. At the micro level, we present induced Bayesian networks as a theory of reward generalization in RLHF, introducing fine-grained dataset topologies into generalization bounds. Combining analysis on both levels, we propose reward modeling from tree-structured preference information. It is shown to reduce reward uncertainty by up to $\Theta(\log n/\log\log n)$ times compared to baselines, where $n$ is the dataset size. Validation on three NLP tasks shows that our tree-based reward model achieves an average win rate of 65% against baseline methods, thus improving reward generalization for free via topology design.


著者 Tianyi Qiu,Fanzhi Zeng,Jiaming Ji,Dong Yan,Kaile Wang,Jiayi Zhou,Yang Han,Josef Dai,Xuehai Pan,Yaodong Yang
発行日 2024-09-11 02:20:16+00:00
カテゴリー: cs.AI, cs.CL, cs.DM, cs.LG パーマリンク