A Framework for Partially Observed Reward-States in RLHF

要約

人間のフィードバックからの強化学習(RLHF)の研究は、LLMの開発における役割のために近年脚光を浴びている。神経科学の研究によれば、刺激に対する人間の反応は、部分的に観察される「内部状態」に依存することが知られている。残念ながら、現在のRLHFのモデルはこのことを考慮していない。さらに、ほとんどのRLHFモデルは、経験的研究で重要性を増しており、サンプルの複雑さとアライメントの両方を改善するのに役立つ中間フィードバックを考慮していない。これらの限界に対処するため、我々はRLHFを部分的に観測された報酬状態を持つ強化学習(PORRL)としてモデル化する。RLHFにおける人間のフィードバックの2つの主要な形態であるカーディナルフィードバックとデュエルフィードバックからPORRLへの削減を示す。カーディナルフィードバックに対しては、統計的に効率的な汎用アルゴリズムを開発し、POR-UCRLとPOR-UCBVIを提示するためにそれらをインスタンス化する。決闘フィードバックについては、カーディナルフィードバックへの素朴な漸化式では、決闘の後悔を線形以下にすることができないことを示す。次に、カーディナル後悔に対する保証を決闘後悔に変換する最初の明示的な漸化式を示す。両方の設定における我々のモデルと保証が、既存のものを一般化し拡張することを示す。最後に、PORRLの統計的・計算的な扱いやすさを向上させる再帰的な構造を、RLHFや完全報酬機械(PORRLが包含する)の学習に関する過去の研究から例を挙げて明らかにする。

要約(オリジナル)

The study of reinforcement learning from human feedback (RLHF) has gained prominence in recent years due to its role in the development of LLMs. Neuroscience research shows that human responses to stimuli are known to depend on partially-observed ‘internal states.’ Unfortunately current models of RLHF do not take take this into consideration. Moreover most RLHF models do not account for intermediate feedback, which is gaining importance in empirical work and can help improve both sample complexity and alignment. To address these limitations, we model RLHF as reinforcement learning with partially observed reward-states (PORRL). We show reductions from the the two dominant forms of human feedback in RLHF – cardinal and dueling feedback to PORRL. For cardinal feedback, we develop generic statistically efficient algorithms and instantiate them to present POR-UCRL and POR-UCBVI. For dueling feedback, we show that a naive reduction to cardinal feedback fails to achieve sublinear dueling regret. We then present the first explicit reduction that converts guarantees for cardinal regret to dueling regret. We show that our models and guarantees in both settings generalize and extend existing ones. Finally, we identify a recursive structure on our model that could improve the statistical and computational tractability of PORRL, giving examples from past work on RLHF as well as learning perfect reward machines, which PORRL subsumes.

arxiv情報

著者 Chinmaya Kausik,Mirco Mutti,Aldo Pacchiano,Ambuj Tewari
発行日 2024-02-05 18:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク