RA-PbRL: Provably Efficient Risk-Aware Preference-Based Reinforcement Learning

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、特に大規模な言語モデルやその他の AI システムを人間の意図に合わせて調整するために、最近人気が急上昇しています。
RLHF の核心は、好みに基づく強化学習 (PbRL) の特殊なインスタンスとみなすことができます。この場合、好みは、特に恣意的な評価者ではなく人間の判断に由来します。
この関係にもかかわらず、RLHF と PbRL の両方における既存のアプローチのほとんどは、平均報酬目標の最適化に主に焦点を当てており、AI の安全性、ヘルスケア、自動運転などのリスク認識を必要とするシナリオを無視しています。
これらのシナリオは 1 エピソードの報酬設定で運用されることが多く、従来のリスクに敏感な目標は適用できません。
これに対処するために、私たちは、PbRL に対する 2 つのリスク認識目標 (ネストされたリスク目標と静的な分位リスク目標) の適用可能性を調査し、証明します。
また、ネストされた目標と静的な目標の両方を最適化するように設計されたアルゴリズムである Risk-AwarePbRL (RA-PbRL) も紹介します。
さらに、我々は後悔の上限の理論的分析を提供し、それがエピソード数に関して線形未満であることを実証し、我々の発見を裏付ける経験的結果を提示します。
私たちのコードは https://github.com/aguilarjose11/PbRLNeurips で入手できます。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) has recently surged in popularity, particularly for aligning large language models and other AI systems with human intentions. At its core, RLHF can be viewed as a specialized instance of Preference-based Reinforcement Learning (PbRL), where the preferences specifically originate from human judgments rather than arbitrary evaluators. Despite this connection, most existing approaches in both RLHF and PbRL primarily focus on optimizing a mean reward objective, neglecting scenarios that necessitate risk-awareness, such as AI safety, healthcare, and autonomous driving. These scenarios often operate under a one-episode-reward setting, which makes conventional risk-sensitive objectives inapplicable. To address this, we explore and prove the applicability of two risk-aware objectives to PbRL : nested and static quantile risk objectives. We also introduce Risk-AwarePbRL (RA-PbRL), an algorithm designed to optimize both nested and static objectives. Additionally, we provide a theoretical analysis of the regret upper bounds, demonstrating that they are sublinear with respect to the number of episodes, and present empirical results to support our findings. Our code is available in https://github.com/aguilarjose11/PbRLNeurips.

arxiv情報

著者 Yujie Zhao,Jose Efraim Aguilar Escamill,Weyl Lu,Huazheng Wang
発行日 2025-01-09 13:30:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク