要約
深層強化学習 (DRL) は多くのロボット アプリケーションで顕著な成功を収めていますが、高性能の報酬関数を設計することは依然として困難な作業であり、多くの場合、大量の手動入力が必要です。
最近、推論や計画など、深い常識的な知識を必要とするタスクに対処するために、大規模言語モデル (LLM) が広く採用されています。
報酬関数の設計も本質的にそのような知識と結びついていることを認識し、LLM はこの文脈において有望な可能性を提供します。
これを動機として、私たちはこの研究で、自動化された報酬関数設計のための自己洗練メカニズムを備えた新しい LLM フレームワークを提案します。
このフレームワークは、自然言語入力に基づいて初期報酬関数を定式化する LLM から始まります。
次に、報酬関数のパフォーマンスが評価され、その結果が自己洗練プロセスを導くために LLM に返されます。
3 つの多様なロボット システムにわたるさまざまな連続ロボット制御タスクを通じて、提案したフレームワークのパフォーマンスを検証します。
結果は、LLM で設計された報酬関数が手動で設計された報酬関数に匹敵するか、さらにはそれを上回ることができることを示しており、私たちのアプローチの有効性と適用可能性が強調されています。
要約(オリジナル)
Although Deep Reinforcement Learning (DRL) has achieved notable success in numerous robotic applications, designing a high-performing reward function remains a challenging task that often requires substantial manual input. Recently, Large Language Models (LLMs) have been extensively adopted to address tasks demanding in-depth common-sense knowledge, such as reasoning and planning. Recognizing that reward function design is also inherently linked to such knowledge, LLM offers a promising potential in this context. Motivated by this, we propose in this work a novel LLM framework with a self-refinement mechanism for automated reward function design. The framework commences with the LLM formulating an initial reward function based on natural language inputs. Then, the performance of the reward function is assessed, and the results are presented back to the LLM for guiding its self-refinement process. We examine the performance of our proposed framework through a variety of continuous robotic control tasks across three diverse robotic systems. The results indicate that our LLM-designed reward functions are able to rival or even surpass manually designed reward functions, highlighting the efficacy and applicability of our approach.
arxiv情報
著者 | Jiayang Song,Zhehua Zhou,Jiawei Liu,Chunrong Fang,Zhan Shu,Lei Ma |
発行日 | 2023-10-02 17:20:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google