要約
ロボットの強化学習 (RL) ポリシーのトレーニングと展開、特に特定のタスクの達成には、大きな課題が伴います。
最近の進歩により、多様な報酬関数の設計、トレーニング技術、シミュレーションから現実への移行 (sim-to-real)、およびパフォーマンス分析方法論が模索されていますが、これらには依然として大幅な人間の介入が必要です。
このペーパーでは、ラージ言語モデル (LLM) に基づいて RL ポリシーをトレーニングおよび展開するためのエンドツーエンドのフレームワークを紹介し、二足歩行ロボットでのその有効性を評価します。
このフレームワークは、相互接続された 3 つのモジュールで構成されています。LLM ガイド付き報酬関数設計モジュール、以前の研究を活用した RL トレーニング モジュール、および sim-to-real 準同型評価モジュールです。
この設計では、人間が操作した戦略と履歴データを組み込むオプションを備えた、必須のシミュレーションおよび展開プラットフォームのみを利用することで、人間による入力の必要性が大幅に軽減されます。
これらのモジュールの構造と従来のアプローチに対する利点を詳細に説明し、二足歩行ロボットの移動制御戦略を自律的に開発および洗練するフレームワークの機能を実証し、人間の介入から独立して動作する可能性を示します。
要約(オリジナル)
Training and deploying reinforcement learning (RL) policies for robots, especially in accomplishing specific tasks, presents substantial challenges. Recent advancements have explored diverse reward function designs, training techniques, simulation-to-reality (sim-to-real) transfers, and performance analysis methodologies, yet these still require significant human intervention. This paper introduces an end-to-end framework for training and deploying RL policies, guided by Large Language Models (LLMs), and evaluates its effectiveness on bipedal robots. The framework consists of three interconnected modules: an LLM-guided reward function design module, an RL training module leveraging prior work, and a sim-to-real homomorphic evaluation module. This design significantly reduces the need for human input by utilizing only essential simulation and deployment platforms, with the option to incorporate human-engineered strategies and historical data. We detail the construction of these modules, their advantages over traditional approaches, and demonstrate the framework’s capability to autonomously develop and refine controlling strategies for bipedal robot locomotion, showcasing its potential to operate independently of human intervention.
arxiv情報
著者 | Yifei Yao,Wentao He,Chenyu Gu,Jiaheng Du,Fuwei Tan,Zhen Zhu,Junguo Lu |
発行日 | 2024-09-13 15:15:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google