Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

要約

ヒューマン フィードバックからの強化学習 (RLHF) には、非常に多様なコンテキスト間の非互換性、ラベル付けコストの低さ、および信頼性の高いアライメント パフォーマンスというトリレンマがあります。
ここでは、報酬モデリング中のデータセット情報構造の設計を通じてそのような非互換性を軽減することを目指しており、同時に、目標の誤った一般化に光を当てる可能性を含む、より幅広い用途を持つ新しい一般化可能な分析方法を提案します。
具体的には、まず RLHF プロセスを再検討し、それをテキスト配布上の自動エンコーディング プロセスとして描写する理論的枠組みを提案します。
私たちのフレームワークは、人間の好みと大規模言語モデル (LLM) の動作の間の分布の一貫性を確保するという RLHF の目的を形式化しています。
このフレームワークに基づいて、RLHF の報酬モデリング段階で一般化をモデル化する新しい方法、誘導ベイジアン ネットワーク (IBN) を導入します。
ランダム グラフ理論と因果分析に基づいて、経験に基づいた汎化誤差限界の導出が可能になり、古典的な汎化分析手法を大幅に改善します。
私たちの分析から得られた洞察は、従来の RLHF 手法におけるチェーンベースのベースラインと比較して、報酬モデリングにおけるツリーベースの情報構造の優位性です。
データが限られた複雑な状況では、ツリーベースの報酬モデル (RM) は、チェーンベースの RM よりも最大 $\Theta(\log n/\log\log n)$ 倍少ない分散を引き起こすことがわかります。ここで、$n$ は
データセットのサイズ。
検証として、3 つの NLP タスクで、ツリーベースの RM がチェーンベースのベースラインに対して平均 65% の勝率を達成することを示します。
今後は、IBN 分析を拡張して、目標の誤った一般化の現象を理解できるようにしたいと考えています。

要約(オリジナル)

There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. Here we aim to mitigate such incompatibility through the design of dataset information structures during reward modeling, and meanwhile propose new, generalizable methods of analysis that have wider applications, including potentially shedding light on goal misgeneralization. Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and large language model (LLM) behavior. Based on this framework, we introduce a new method to model generalization in the reward modeling stage of RLHF, the induced Bayesian network (IBN). Drawing from random graph theory and causal analysis, it enables empirically grounded derivation of generalization error bounds, a key improvement over classical methods of generalization analysis. An insight from our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines in conventional RLHF methods. We derive that in complex contexts with limited data, the tree-based reward model (RM) induces up to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset size. As validation, we demonstrate that on three NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines. Looking ahead, we hope to extend the IBN analysis to help understand the phenomenon of goal misgeneralization.

arxiv情報

著者 Tianyi Qiu,Fanzhi Zeng,Jiaming Ji,Dong Yan,Kaile Wang,Jiayi Zhou,Han Yang,Josef Dai,Xuehai Pan,Yaodong Yang
発行日 2024-02-20 18:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DM, cs.LG パーマリンク