要約
我々は、幅広いクラスの強化学習 (RL) アルゴリズムの効率に対する根本的な制限を証明しました。
この制限は、モデルフリー RL 手法だけでなく、ツリー検索による計画などの幅広いモデルベースの手法にも適用されます。
このクラスの抽象的な定義の下で、これらのメソッドが環境との相互作用で最適な動作を見つけるために下限指数関数に影響を受ける一連の RL 問題を提供します。
しかし、この特定の問題群に合わせたものではなく、その群内の問題を効率的に解決できる方法が存在します。
対照的に、我々の制限は、文献で提案されているいくつかのタイプの方法、たとえば、目標条件付き方法や逆ダイナミクス モデルを構築する他のアルゴリズムには適用されません。
要約(オリジナル)
We prove a fundamental limitation on the efficiency of a wide class of Reinforcement Learning (RL) algorithms. This limitation applies to model-free RL methods as well as a broad range of model-based methods, such as planning with tree search. Under an abstract definition of this class, we provide a family of RL problems for which these methods suffer a lower bound exponential in the horizon for their interactions with the environment to find an optimal behavior. However, there exists a method, not tailored to this specific family of problems, which can efficiently solve the problems in the family. In contrast, our limitation does not apply to several types of methods proposed in the literature, for instance, goal-conditioned methods or other algorithms that construct an inverse dynamics model.
arxiv情報
著者 | Brieuc Pinon,Raphaël Jungers,Jean-Charles Delvenne |
発行日 | 2023-09-28 09:38:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google