Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning

要約

ピックアンドプレイスや目的地への到着など、現実世界のロボットの学習問題の多くは、できるだけ早く目標状態に到達するという問題とみなすことができます。
これらの問題は、エピソード的な強化学習タスクとして定式化すると、意図した目標とうまく一致するように簡単に指定できます。タイム ステップごとに -1 の報酬が与えられ、目標状態に到達すると終了します。これは、最小時間タスクと呼ばれます。
この単純さにもかかわらず、そのような定式化は、難しさと有益性の欠如が認識されているため、濃厚な報酬を優先して無視されることがよくあります。
私たちの研究では 2 つの報酬パラダイムを対比し、最小時間のタスク仕様はより高品質なポリシーの学習を容易にするだけでなく、独自のパフォーマンス指標で高密度報酬ベースのポリシーを上回る可能性があることを明らかにしました。
重要なことに、このような希薄なフィードバック設定での学習の成功を示す堅牢な初期指標として、初期ポリシーの目標達成率も特定しました。
最後に、4 つの異なる実際のロボット プラットフォームを使用して、一定の負の報酬を使用して 2 ~ 3 時間以内にピクセルベースのポリシーを最初から学習できることを示します。

要約(オリジナル)

Many real-world robot learning problems, such as pick-and-place or arriving at a destination, can be seen as a problem of reaching a goal state as soon as possible. These problems, when formulated as episodic reinforcement learning tasks, can easily be specified to align well with our intended goal: -1 reward every time step with termination upon reaching the goal state, called minimum-time tasks. Despite this simplicity, such formulations are often overlooked in favor of dense rewards due to their perceived difficulty and lack of informativeness. Our studies contrast the two reward paradigms, revealing that the minimum-time task specification not only facilitates learning higher-quality policies but can also surpass dense-reward-based policies on their own performance metrics. Crucially, we also identify the goal-hit rate of the initial policy as a robust early indicator for learning success in such sparse feedback settings. Finally, using four distinct real-robotic platforms, we show that it is possible to learn pixel-based policies from scratch within two to three hours using constant negative rewards.

arxiv情報

著者 Gautham Vasan,Yan Wang,Fahim Shahriar,James Bergstra,Martin Jagersand,A. Rupam Mahmood
発行日 2024-07-08 20:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク