Rethinking Information Structures in RLHF: Reward Generalization from a Graph Theory Perspective

要約

ヒューマン フィードバックからの強化学習 (RLHF) には、非常に多様なコンテキスト間の非互換性、ラベル付けコストの低さ、および信頼性の高いアライメント パフォーマンスというトリレンマがあります。
ここでは、報酬モデリング中のデータセット情報構造の設計を通じて、このような非互換性を軽減することを目指しています。
具体的には、まず RLHF プロセスを再検討し、それをテキスト配布上の自動エンコーディング プロセスとして描写する理論的枠組みを提案します。
私たちのフレームワークは、人間の好みと大規模言語モデル (LLM) の動作の間の分布の一貫性を確保するという RLHF の目的を形式化しています。
このフレームワークに基づいて、RLHF の報酬モデリング段階における情報構造のパフォーマンスへの影響を系統的に調査します。
報酬モデリング段階での報酬の一般化をさらに理解するために、意味空間での一般化をモデル化するランダム グラフ理論に基づく新しい方法を導入します。
私たちの分析の重要な洞察は、従来の RLHF 手法で採用されているチェーンベースのベースラインと比較して、報酬モデリングにおけるツリーベースの情報構造の優位性です。
データが限られた非常に複雑な状況下では、ツリーベースの報酬モデル (RM) は、チェーンベースの RM よりも最大 $\Theta(\log n/\log\log n)$ 倍少ない分散を引き起こすことがわかります。
データセットのサイズです。
理論的な貢献を検証するために、3 つの異なる NLP タスクにおいて、ツリーベースの RM がチェーンベースのベースラインに対して平均 65% の勝率を達成することを実証します。
今後、私たちのフレームワークが目標の誤った一般化を理解するための一歩として役立つことを願っています。

要約(オリジナル)

There is a trilemma in reinforcement learning from human feedback (RLHF): the incompatibility between highly diverse contexts, low labeling cost, and reliable alignment performance. Here we aim to mitigate such incompatibility through the design of dataset information structures during reward modeling. Specifically, we first reexamine the RLHF process and propose a theoretical framework portraying it as an autoencoding process over text distributions. Our framework formalizes the RLHF objective of ensuring distributional consistency between human preference and large language model (LLM) behavior. Building on this framework, we then systematically investigate the performance impact of information structure in the reward modeling stage of RLHF. To further understand reward generalization in the reward modeling stage, we introduce a new method based on random graph theory that models generalization in the semantic space. A key insight of our analysis is the superiority of the tree-based information structure in reward modeling, compared to chain-based baselines adopted by conventional RLHF methods. We derive that under highly complex contexts with limited data, the tree-based reward model (RM) induces up to $\Theta(\log n/\log\log n)$ times less variance than chain-based RM where $n$ is the dataset size. To validate our theoretical contribution, we demonstrate that on three different NLP tasks, the tree-based RM achieves 65% win rate on average against chain-based baselines. Looking forward, we hope our framework can serve as a step towards understanding goal misgeneralization.

arxiv情報

著者 Tianyi Qiu,Fanzhi Zeng,Jiaming Ji,Dong Yan,Kaile Wang,Jiayi Zhou,Han Yang,Josef Dai,Xuehai Pan,Yaodong Yang
発行日 2024-02-15 18:39:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DM, cs.LG パーマリンク