要約
Deep Renection Learning(DRL)は、ロボット制御において強力なパフォーマンスを実証していますが、分散排出(OOD)状態の影響を受けやすく、しばしば信頼できないアクションとタスクの障害をもたらします。
以前の方法では、OODの発生の最小化または防止に焦点を当てていますが、エージェントがそのような状態に遭遇すると、回復をほとんど無視しています。
最新の研究では、エージェントが分配内の状態に戻ることでこれに対処しようとしましたが、不確実性の推定への依存は、複雑な環境でのスケーラビリティを妨げます。
この制限を克服するために、不確実性の推定に依存することなく回復学習を可能にする、分散除外回復(Lamour)の言語モデルを導入します。
Lamourは、エージェントを元のタスクを正常に実行できる状態に戻す密な報酬コードを生成し、画像の説明、論理的推論、およびコード生成でLVLMSの機能を活用します。
実験結果は、Lamourが多様な移動タスク全体の回復効率を大幅に向上させ、既存の方法が苦労しているヒューマノイド移動やモバイル操作など、複雑な環境に効果的に一般化することさえあることを示しています。
コードと補足資料は、https://lamour-rl.github.io/で入手できます。
要約(オリジナル)
Deep Reinforcement Learning (DRL) has demonstrated strong performance in robotic control but remains susceptible to out-of-distribution (OOD) states, often resulting in unreliable actions and task failure. While previous methods have focused on minimizing or preventing OOD occurrences, they largely neglect recovery once an agent encounters such states. Although the latest research has attempted to address this by guiding agents back to in-distribution states, their reliance on uncertainty estimation hinders scalability in complex environments. To overcome this limitation, we introduce Language Models for Out-of-Distribution Recovery (LaMOuR), which enables recovery learning without relying on uncertainty estimation. LaMOuR generates dense reward codes that guide the agent back to a state where it can successfully perform its original task, leveraging the capabilities of LVLMs in image description, logical reasoning, and code generation. Experimental results show that LaMOuR substantially enhances recovery efficiency across diverse locomotion tasks and even generalizes effectively to complex environments, including humanoid locomotion and mobile manipulation, where existing methods struggle. The code and supplementary materials are available at https://lamour-rl.github.io/.
arxiv情報
著者 | Chan Kim,Seung-Woo Seo,Seong-Woo Kim |
発行日 | 2025-03-27 05:17:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google