要約
強化学習 (RL) はロボット タスクにおいて魅力的なパフォーマンスを示していますが、その成功は多くの場合、複雑でアドホックな報酬関数の設計にかかっています。
研究者は、大規模言語モデル (LLM) を使用して、専門家でないユーザーが報酬関数をより簡単に指定できるようにする方法を検討してきました。
しかし、LLM はさまざまな機能の重要性のバランスをとるのに苦労し、配布外のロボット タスクにはあまり一般化できず、テキストベースの説明だけでは問題を適切に表現できません。
これらの課題に対処するために、私たちは、自然言語ガイダンスと視覚的なユーザー デモンストレーションを組み合わせて、ロボットの動作をユーザーの意図とより適切に一致させる新しいフレームワークである ELEMENTAL (インタラクティブ ラーニング フロム デモンストレーションと言語からの対話) を提案します。
ELEMENTAL は、ビジュアル入力を組み込むことで、テキストのみのタスク仕様の制限を克服するとともに、逆強化学習 (IRL) を活用して機能の重みのバランスをとり、実証された動作を最適に一致させます。
ELEMENTAL では、機能、報酬、ポリシーの学習を向上させるために、内省による反復的なフィードバック ループも導入されています。
私たちの実験結果は、ELEMENTAL がタスクの成功率で以前の研究を 42.3% 上回り、分散外タスクでは 41.3% 優れた汎化を達成することを示し、LfD における堅牢性を強調しています。
要約(オリジナル)
Reinforcement learning (RL) has demonstrated compelling performance in robotic tasks, but its success often hinges on the design of complex, ad hoc reward functions. Researchers have explored how Large Language Models (LLMs) could enable non-expert users to specify reward functions more easily. However, LLMs struggle to balance the importance of different features, generalize poorly to out-of-distribution robotic tasks, and cannot represent the problem properly with only text-based descriptions. To address these challenges, we propose ELEMENTAL (intEractive LEarning froM dEmoNstraTion And Language), a novel framework that combines natural language guidance with visual user demonstrations to align robot behavior with user intentions better. By incorporating visual inputs, ELEMENTAL overcomes the limitations of text-only task specifications, while leveraging inverse reinforcement learning (IRL) to balance feature weights and match the demonstrated behaviors optimally. ELEMENTAL also introduces an iterative feedback-loop through self-reflection to improve feature, reward, and policy learning. Our experiment results demonstrate that ELEMENTAL outperforms prior work by 42.3% on task success, and achieves 41.3% better generalization in out-of-distribution tasks, highlighting its robustness in LfD.
arxiv情報
| 著者 | Letian Chen,Matthew Gombolay |
| 発行日 | 2024-12-05 16:27:08+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google