要約
我々は、オフライン強化学習 (RL) アルゴリズムの動作に関する新しい観察結果を提示します。多くのベンチマーク データセットにおいて、オフライン RL は、どこでもゼロである、またはどこでもゼロである、または
真の報酬のマイナスです。
この現象は、オフライン RL の収益最大化目標によっては簡単に説明できません。
さらに、オフライン RL には、報酬設計に敏感であることが知られているオンライン RL の特徴にはない、ある程度の堅牢性が与えられます。
我々は、この驚くべき堅牢性特性が、オフライン RL アルゴリズムにおける悲観主義の概念と、一般的なデータ収集実践における特定の暗黙のバイアスとの相互作用に起因することを実証します。
私たちがこの研究で証明しているように、悲観主義はエージェントに「生存本能」、つまりデータサポートの範囲内に長期的にとどまるインセンティブを与えますが、限定的で偏ったデータ範囲は一連の生存ポリシーをさらに制限します。
正式には、本当の報酬さえ含まれていない可能性がある報酬クラスが与えられると、オフライン RL がクラス内のあらゆる報酬から最適に近い安全なポリシーを学習できるようにするトレーニング データ分布の条件を特定します。
私たちは、既存のオフライン RL ベンチマークの結果を解釈するとき、および将来のベンチマークを作成するときに、生存本能を考慮する必要があると主張します。
私たちの経験的および理論的結果は、不完全な報酬で意図的に偏ったデータ範囲でエージェントが望ましい行動を学習するように促されるという、RL の新しいパラダイムを示唆しています。
要約(オリジナル)
We present a novel observation about the behavior of offline reinforcement learning (RL) algorithms: on many benchmark datasets, offline RL can produce well-performing and safe policies even when trained with ‘wrong’ reward labels, such as those that are zero everywhere or are negatives of the true rewards. This phenomenon cannot be easily explained by offline RL’s return maximization objective. Moreover, it gives offline RL a degree of robustness that is uncharacteristic of its online RL counterparts, which are known to be sensitive to reward design. We demonstrate that this surprising robustness property is attributable to an interplay between the notion of pessimism in offline RL algorithms and certain implicit biases in common data collection practices. As we prove in this work, pessimism endows the agent with a ‘survival instinct’, i.e., an incentive to stay within the data support in the long term, while the limited and biased data coverage further constrains the set of survival policies. Formally, given a reward class — which may not even contain the true reward — we identify conditions on the training data distribution that enable offline RL to learn a near-optimal and safe policy from any reward within the class. We argue that the survival instinct should be taken into account when interpreting results from existing offline RL benchmarks and when creating future ones. Our empirical and theoretical results suggest a new paradigm for RL, whereby an agent is nudged to learn a desirable behavior with imperfect reward but purposely biased data coverage.
arxiv情報
著者 | Anqi Li,Dipendra Misra,Andrey Kolobov,Ching-An Cheng |
発行日 | 2023-11-08 18:46:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google