A Theoretical Framework for Partially Observed Reward-States in RLHF

要約

ヒューマン フィードバックからの強化学習 (RLHF) の展開の拡大には、その基礎となるモデルのより深い理論的調査が必要です。
RLHF の一般的なモデルは、人間のフィードバックに影響を与える可能性のある、神経科学に裏付けられた部分的に観察された「内部状態」を考慮しておらず、相互作用中の中間フィードバックにも対応していません。
これらは両方とも、学習のスピードアップと調整の向上に役立ちます。
これらの制限に対処するために、RLHF を部分的に観察された報酬状態による強化学習 (PORRL) としてモデル化します。
$-$ 枢機卿フィードバックと決闘フィードバックの 2 種類に対応します。
まず、PORRL が従来の RL、RLHF、報酬マシンを含む幅広い種類の RL 問題を包含することを示します。
基本的なフィードバックについては、2 つのモデルベースの方法 (POR-UCRL、POR-UCBVI) を紹介します。
我々は、メソッドに対して重大な後悔とサンプルの複雑さの両方を保証し、それらが単純な歴史の要約よりも改善されていることを示しています。
次に、再帰的な内部状態と高密度の中間フィードバックを備えた設定での単純な履歴要約を備えた GOLF のようなモデルフリーの手法の利点について説明します。
この目的のために、ベルマン・エルダー次元の新しい歴史認識バージョンを定義し、私たちの設定での GOLF の新しい保証を提供します。これは、例示的な例では指数関数的に鮮明になる可能性があります。
決闘フィードバックについては、カーディナルフィードバックへの素朴な還元ではサブリニアな決闘後悔を達成できないことを示します。
次に、枢機卿の後悔に対する保証を決闘の後悔に変換する最初の明示的な削減を提示します。
どちらのフィードバック設定でも、モデルと保証が既存のものを一般化および拡張することを示します。

要約(オリジナル)

The growing deployment of reinforcement learning from human feedback (RLHF) calls for a deeper theoretical investigation of its underlying models. The prevalent models of RLHF do not account for neuroscience-backed, partially-observed ‘internal states’ that can affect human feedback, nor do they accommodate intermediate feedback during an interaction. Both of these can be instrumental in speeding up learning and improving alignment. To address these limitations, we model RLHF as reinforcement learning with partially observed reward-states (PORRL). We accommodate two kinds of feedback $-$ cardinal and dueling feedback. We first demonstrate that PORRL subsumes a wide class of RL problems, including traditional RL, RLHF, and reward machines. For cardinal feedback, we present two model-based methods (POR-UCRL, POR-UCBVI). We give both cardinal regret and sample complexity guarantees for the methods, showing that they improve over naive history-summarization. We then discuss the benefits of a model-free method like GOLF with naive history-summarization in settings with recursive internal states and dense intermediate feedback. For this purpose, we define a new history aware version of the Bellman-eluder dimension and give a new guarantee for GOLF in our setting, which can be exponentially sharper in illustrative examples. For dueling feedback, we show that a naive reduction to cardinal feedback fails to achieve sublinear dueling regret. We then present the first explicit reduction that converts guarantees for cardinal regret to dueling regret. In both feedback settings, we show that our models and guarantees generalize and extend existing ones.

arxiv情報

著者 Chinmaya Kausik,Mirco Mutti,Aldo Pacchiano,Ambuj Tewari
発行日 2024-05-27 17:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク