Human-Inspired Framework to Accelerate Reinforcement Learning

要約

強化学習 (RL) はデータ サイエンスの意思決定に不可欠ですが、特にコストのかかる物理的相互作用を伴う現実世界のシナリオでは、サンプルの非効率性に悩まされます。
このペーパーでは、RL アルゴリズムのサンプル効率を向上させるための、人間からインスピレーションを得た新しいフレームワークを紹介します。
これは、最初に学習エージェントに単純なタスクを実行させ、徐々に複雑さを増し、最終的にメインのタスクに導くことでこれを実現します。
この方法では事前トレーニングは必要なく、単純なタスクを 1 回の反復で学習するだけです。
得られた知識により、計算の複雑さを増すことなく、価値やポリシーの移転などのさまざまな転移学習アプローチを促進できます。
これは、値ベース、ポリシーベース、表形式、ディープ RL メソッドなど、さまざまな目標、環境、RL アルゴリズムに適用できます。
実験による評価では、特に困難な主要タスクにおいて、サンプル効率の向上におけるフレームワークの有効性が実証されており、単純なランダム ウォークと制約のあるより複雑な最適制御問題の両方を通じて実証されています。

要約(オリジナル)

Reinforcement learning (RL) is crucial for data science decision-making but suffers from sample inefficiency, particularly in real-world scenarios with costly physical interactions. This paper introduces a novel human-inspired framework to enhance RL algorithm sample efficiency. It achieves this by initially exposing the learning agent to simpler tasks that progressively increase in complexity, ultimately leading to the main task. This method requires no pre-training and involves learning simpler tasks for just one iteration. The resulting knowledge can facilitate various transfer learning approaches, such as value and policy transfer, without increasing computational complexity. It can be applied across different goals, environments, and RL algorithms, including value-based, policy-based, tabular, and deep RL methods. Experimental evaluations demonstrate the framework’s effectiveness in enhancing sample efficiency, especially in challenging main tasks, demonstrated through both a simple Random Walk and more complex optimal control problems with constraints.

arxiv情報

著者 Ali Beikmohammadi,Sindri Magnússon
発行日 2024-01-11 14:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク