要約
継続的かつインタラクティブなロボット学習は、ロボットがサンプル効率で新しいタスクを永続的に解決するための新しいスキルを学習することを期待する人間のユーザーとロボットが共存するため、困難な問題です。
この研究では、人間のユーザーとの自然言語対話対話を通じて、ロボットが視覚運動ロボットのスキルとタスク関連情報をクエリおよび学習するためのフレームワークを紹介します。
これまでのアプローチは、エージェントに従う指導のパフォーマンスを向上させることに重点を置くか、新しいスキルや概念を受動的に学習するかのどちらかでした。
代わりに、言語スキル基礎埋め込みと組み合わせたダイアログを使用して、ユーザーが要求したスキルやタスクを照会または確認しました。
この目標を達成するために、私たちはエージェント用に 3 つの異なるコンポーネントを開発し、統合しました。
まず、既存の SoTA ACT モデルが少数ショットの継続学習を実行できるようにする、新しい視覚運動制御ポリシー ACT with Low Rank Adaptation (ACT-LoRA) を提案します。
次に、スキルの実施形態にわたるデモンストレーションを共有の埋め込みに投影する調整モデルを開発します。これにより、ユーザーからいつ質問やデモンストレーションを行うべきかを知ることができます。
最後に、既存の LLM を統合して人間のユーザーと対話し、タスクを解決するための根拠のある対話型の継続的なスキル学習を実行しました。
当社の ACT-LoRA モデルは、新しいスキルの 5 回のデモンストレーションのみでトレーニングした場合、新しい微調整されたスキルを 100% の精度で学習しますが、RLBench データセットの事前トレーニング済みスキルでは他のモデルでは大幅に及ばない 74.75% の精度を維持します。
また、組み合わせたフレームワークの継続的な学習能力を実証するために、8 人の被験者を対象とした人間被験者の研究も実施しました。
実際のロボットが参加者のデータから学習し、サンドイッチ作りのタスクで 75% の成功率を達成しました。これは、ロボットが私たちのアプローチを使用して、専門家以外のユーザーとの対話から新しいスキルやタスクの知識を学習できることを示しています。
要約(オリジナル)
Continual and interactive robot learning is a challenging problem as the robot is present with human users who expect the robot to learn novel skills to solve novel tasks perpetually with sample efficiency. In this work we present a framework for robots to query and learn visuo-motor robot skills and task relevant information via natural language dialog interactions with human users. Previous approaches either focus on improving the performance of instruction following agents, or passively learn novel skills or concepts. Instead, we used dialog combined with a language-skill grounding embedding to query or confirm skills and/or tasks requested by a user. To achieve this goal, we developed and integrated three different components for our agent. Firstly, we propose a novel visual-motor control policy ACT with Low Rank Adaptation (ACT-LoRA), which enables the existing SoTA ACT model to perform few-shot continual learning. Secondly, we develop an alignment model that projects demonstrations across skill embodiments into a shared embedding allowing us to know when to ask questions and/or demonstrations from users. Finally, we integrated an existing LLM to interact with a human user to perform grounded interactive continual skill learning to solve a task. Our ACT-LoRA model learns novel fine-tuned skills with a 100% accuracy when trained with only five demonstrations for a novel skill while still maintaining a 74.75% accuracy on pre-trained skills in the RLBench dataset where other models fall significantly short. We also performed a human-subjects study with 8 subjects to demonstrate the continual learning capabilities of our combined framework. We achieve a success rate of 75% in the task of sandwich making with the real robot learning from participant data demonstrating that robots can learn novel skills or task knowledge from dialogue with non-expert users using our approach.
arxiv情報
著者 | Weiwei Gu,Suresh Kondepudi,Lixiao Huang,Nakul Gopalan |
発行日 | 2024-09-05 01:51:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google