RA-RLHF: Provably Efficient Risk-Aware Reinforcement Learning Human Feedback

要約

強化学習ヒューマン フィードバック (RLHF) は、エージェントが各エピソードの軌跡のペアに対する好みのみを受け取る問題を研究します。
この分野における従来のアプローチは、主に平均報酬または効用基準に焦点を当ててきました。
ただし、AI システム、医療、農業など、リスク認識の向上が求められる RLHF シナリオでは、リスクを認識した対策が必須です。
従来のリスクを意識した目標やアルゴリズムは、このような 1 エピソード報酬の設定では適用できません。
これに対処するために、私たちは、RLHF に対する 2 つのリスク認識目標、つまりネストされた分位点リスク目標と静的分位リスク目標の適用可能性を調査し、証明します。
また、ネストされた目標と静的な目標の両方を最適化するように設計されたアルゴリズムである Risk-Aware-RLHF (RA-RLHF) も紹介します。
さらに、我々は後悔の上限の理論的分析を提供し、それがエピソード数に関して線形未満であることを実証し、我々の発見を裏付ける経験的結果を提示します。
私たちのコードは https://github.com/aguilarjose11/pbrlNeurips で入手できます。

要約(オリジナル)

Reinforcement Learning Human Feedback (RLHF) studies the problem where agents receive only preferences over pairs of trajectories in each episode. Traditional approaches in this field have predominantly focused on the mean reward or utility criterion. However, in RLHF scenarios demanding heightened risk awareness, such as in AI systems, healthcare, and agriculture, risk-aware measures are requisite. Traditional risk-aware objectives and algorithms are not applicable in such one-episode-reward settings. To address this, we explore and prove the applicability of two risk-aware objectives to RLHF: nested and static quantile risk objectives. We also introduce Risk-Aware-RLHF (RA-RLHF), an algorithm designed to optimize both nested and static objectives. Additionally, we provide a theoretical analysis of the regret upper bounds, demonstrating that they are sublinear with respect to the number of episodes, and present empirical results to support our findings. Our code is available in https://github.com/aguilarjose11/pbrlNeurips.

arxiv情報

著者 Yujie Zhao,Jose Efraim Aguilar Escamill,Weyl Lu,Huazheng Wang
発行日 2024-12-24 15:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク