要約
線形時相論理 (LTL) や有限オートマトンなどの形式言語を使用して、複雑なタスクを正確かつ簡潔に指定し、ロボット アプリケーションでの強化学習 (RL) の報酬関数を導出することへの関心が高まっています。
ただし、既存の手法では報酬がまばらに割り当てられることが多く(たとえば、タスクが完了した場合にのみ報酬 1 を与え、それ以外の場合は 0 を与える)、高品質のポリシーに収束するには広範な調査が必要です。
この制限に対処するために、我々は、LTL 式で指定されたタスクで目に見える進歩を遂げるよう RL エージェントを動機付ける一連の報酬関数を提案し、学習プロセス中にこれらの報酬関数を動的に更新する適応型報酬形成アプローチを開発します。
さまざまな RL ベースのロボット タスクに関する実験結果は、提案されたアプローチがさまざまな RL アルゴリズムと互換性があり、常にベースラインを上回り、より高いタスクの成功率と収益を伴うより良いポリシーへの早期収束を達成することを示しています。
要約(オリジナル)
There is a surge of interest in using formal languages such as Linear Temporal Logic (LTL) and finite automata to precisely and succinctly specify complex tasks and derive reward functions for reinforcement learning (RL) in robotic applications. However, existing methods often assign sparse rewards (e.g., giving a reward of 1 only if a task is completed and 0 otherwise), necessitating extensive exploration to converge to a high-quality policy. To address this limitation, we propose a suite of reward functions that incentivize an RL agent to make measurable progress on tasks specified by LTL formulas and develop an adaptive reward shaping approach that dynamically updates these reward functions during the learning process. Experimental results on a range of RL-based robotic tasks demonstrate that the proposed approach is compatible with various RL algorithms and consistently outperforms baselines, achieving earlier convergence to better policies with higher task success rates and returns.
arxiv情報
著者 | Minjae Kwon,Ingy ElSayed-Aly,Lu Feng |
発行日 | 2024-12-14 18:04:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google