Reward Generalization in RLHF: A Topological Perspective

要約

既存の調整方法は、情報フローの共通トポロジーを共有しており、報酬情報が人間から収集され、嗜好学習でモデル化され、言語モデルの調整に使用されます。
ただし、この共有トポロジは体系的に特徴付けられておらず、その代替案も徹底的に調査されておらず、低いデータ効率と信頼性の低い一般化の問題が解決されていないままになっています。
解決策として、マクロレベルとミクロレベルの両方での情報フローのトポロジーに焦点を当て、ヒューマンフィードバックからの強化学習(RLHF)における報酬の一般化を調査するための理論的フレームワークを紹介します。
マクロレベルでは、RLHF 情報フローを行動分布に対する自動エンコードプロセスとして描写し、人間の好みとモデルの行動の間の分布の一貫性という RLHF の目標を形式化します。
ミクロレベルでは、RLHF における報酬一般化の理論として誘導ベイジアン ネットワークを提示し、一般化限界にきめの細かいデータセット トポロジーを導入します。
両方のレベルの分析を組み合わせて、ツリー構造の嗜好情報からの報酬モデリングを提案します。
ベースラインと比較して、報酬の不確実性が最大 $\Theta(\log n/\log\log n)$ 倍減少することが示されています ($n$ はデータセットのサイズです)。
3 つの NLP タスクでの検証により、ツリーベースの報酬モデルがベースライン手法に対して 65% の平均勝率を達成し、トポロジ設計を通じて報酬の一般化が無料で向上することがわかりました。

要約(オリジナル)

Existing alignment methods share a common topology of information flow, where reward information is collected from humans, modeled with preference learning, and used to tune language models. However, this shared topology has not been systematically characterized, nor have its alternatives been thoroughly explored, leaving the problems of low data efficiency and unreliable generalization unaddressed. As a solution, we introduce a theoretical framework for investigating reward generalization in reinforcement learning from human feedback (RLHF), focusing on the topology of information flow at both macro and micro levels. At the macro level, we portray the RLHF information flow as an autoencoding process over behavior distributions, formalizing the RLHF objective of distributional consistency between human preference and model behavior. At the micro level, we present induced Bayesian networks as a theory of reward generalization in RLHF, introducing fine-grained dataset topologies into generalization bounds. Combining analysis on both levels, we propose reward modeling from tree-structured preference information. It is shown to reduce reward uncertainty by up to $\Theta(\log n/\log\log n)$ times compared to baselines, where $n$ is the dataset size. Validation on three NLP tasks shows that our tree-based reward model achieves an average win rate of 65% against baseline methods, thus improving reward generalization for free via topology design.

arxiv情報

著者 Tianyi Qiu,Fanzhi Zeng,Jiaming Ji,Dong Yan,Kaile Wang,Jiayi Zhou,Yang Han,Josef Dai,Xuehai Pan,Yaodong Yang
発行日 2024-09-11 02:20:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DM, cs.LG パーマリンク