要約
言語と低レベル制御を組み合わせた階層型ポリシーは、事前トレーニングされた言語および視覚言語モデル (LLM/VLM) などのゼロショットの高レベル プランナー、または注釈付きでトレーニングされたモデルのいずれかを活用することにより、長期にわたるロボット タスクを印象的に実行することが示されています。
ロボットのデモンストレーション。
しかし、複雑で器用なスキルにとって、長期にわたるタスクで高い成功率を達成することは依然として大きな課題です。タスクが長くなるほど、ある段階で失敗する可能性が高くなります。
人間は、直感的で自然なフィードバックを通じてロボットが長期的なタスクのパフォーマンスを継続的に向上できるよう支援できるでしょうか?
この論文では、次のような観察を行っています。十分に豊かで表現力豊かな低レベルの言語条件付きスキルにインデックスを付ける高レベルのポリシーは、言語修正の形で人間によるフィードバックによって容易に監視できます。
私たちは、小さな動き(「少し左に移動する」)などのきめの細かい修正であっても、高レベルのポリシーに効果的に組み込むことができ、そのような修正は人間がロボットを観察し、時折行うアクションから容易に取得できることを示します。
提案。
このフレームワークにより、ロボットはリアルタイムの言語フィードバックに迅速に適応できるだけでなく、このフィードバックを反復トレーニング スキームに組み込むことができ、低レベルの実行と高レベルの意思決定の両方におけるエラーを修正する高レベルのポリシーの能力が向上します。
純粋に口頭でのフィードバックから。
実際のハードウェアでの評価では、追加の遠隔操作を必要とせずに、長期にわたる器用な操作タスクのパフォーマンスが大幅に向上することがわかりました。
ビデオとコードは https://yay-robot.github.io/ で入手できます。
要約(オリジナル)
Hierarchical policies that combine language and low-level control have been shown to perform impressively long-horizon robotic tasks, by leveraging either zero-shot high-level planners like pretrained language and vision-language models (LLMs/VLMs) or models trained on annotated robotic demonstrations. However, for complex and dexterous skills, attaining high success rates on long-horizon tasks still represents a major challenge — the longer the task is, the more likely it is that some stage will fail. Can humans help the robot to continuously improve its long-horizon task performance through intuitive and natural feedback? In this paper, we make the following observation: high-level policies that index into sufficiently rich and expressive low-level language-conditioned skills can be readily supervised with human feedback in the form of language corrections. We show that even fine-grained corrections, such as small movements (‘move a bit to the left’), can be effectively incorporated into high-level policies, and that such corrections can be readily obtained from humans observing the robot and making occasional suggestions. This framework enables robots not only to rapidly adapt to real-time language feedback, but also incorporate this feedback into an iterative training scheme that improves the high-level policy’s ability to correct errors in both low-level execution and high-level decision-making purely from verbal feedback. Our evaluation on real hardware shows that this leads to significant performance improvement in long-horizon, dexterous manipulation tasks without the need for any additional teleoperation. Videos and code are available at https://yay-robot.github.io/.
arxiv情報
著者 | Lucy Xiaoyang Shi,Zheyuan Hu,Tony Z. Zhao,Archit Sharma,Karl Pertsch,Jianlan Luo,Sergey Levine,Chelsea Finn |
発行日 | 2024-03-19 17:08:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google