Language to Rewards for Robotic Skill Synthesis

要約

大規模言語モデル (LLM) は、論理的推論からコード記述に至るまで、コンテキスト内学習を通じてさまざまな新機能を獲得する上で刺激的な進歩を示しています。
ロボット研究者は、LLM を使用してロボット制御の機能を向上させることも検討しています。
ただし、低レベルのロボットの動作はハードウェアに依存しており、LLM トレーニング コーパスでは過小評価されているため、LLM をロボット工学に適用する既存の取り組みでは、主に LLM をセマンティック プランナーとして扱うか、ロボットとのインターフェースとして人間が操作した制御プリミティブに依存しています。
一方、報酬関数は、多様なタスクを達成するために制御ポリシーに合わせて最適化できる柔軟な表現であると同時に、その意味論的な豊富さにより、LLM による指定に適していることが示されています。
この研究では、最適化してさまざまなロボット タスクを実行できる報酬パラメーターを定義する LLM を利用することで、この実現を活用する新しいパラダイムを導入します。
LLM によって生成される中間インターフェイスとして報酬を使用すると、高レベル言語の命令や低レベルのロボットの動作に対する修正の間のギャップを効果的に埋めることができます。
一方、これをリアルタイム オプティマイザーである MuJoCo MPC と組み合わせることで、ユーザーが結果をすぐに観察してシステムにフィードバックを提供できる、インタラクティブな動作作成エクスペリエンスが強化されます。
提案手法の性能を体系的に評価するために、模擬四足ロボットと器用なマニピュレータ ロボットに対して合計 17 のタスクを設計しました。
私たちが提案した方法が設計されたタスクの 90% に確実に取り組む一方、Code-as-policy とのインターフェイスとして初歩的なスキルを使用するベースラインではタスクの 50% を達成できることを実証します。
さらに、実際のロボット アームでこの方法を検証しました。そこでは、掴みにくい押しなどの複雑な操作スキルが対話型システムを通じて出現します。

要約(オリジナル)

Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabilities of robotic control. However, since low-level robot actions are hardware-dependent and underrepresented in LLM training corpora, existing efforts in applying LLMs to robotics have largely treated LLMs as semantic planners or relied on human-engineered control primitives to interface with the robot. On the other hand, reward functions are shown to be flexible representations that can be optimized for control policies to achieve diverse tasks, while their semantic richness makes them suitable to be specified by LLMs. In this work, we introduce a new paradigm that harnesses this realization by utilizing LLMs to define reward parameters that can be optimized and accomplish variety of robotic tasks. Using reward as the intermediate interface generated by LLMs, we can effectively bridge the gap between high-level language instructions or corrections to low-level robot actions. Meanwhile, combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive behavior creation experience where users can immediately observe the results and provide feedback to the system. To systematically evaluate the performance of our proposed method, we designed a total of 17 tasks for a simulated quadruped robot and a dexterous manipulator robot. We demonstrate that our proposed method reliably tackles 90% of the designed tasks, while a baseline using primitive skills as the interface with Code-as-policies achieves 50% of the tasks. We further validated our method on a real robot arm where complex manipulation skills such as non-prehensile pushing emerge through our interactive system.

arxiv情報

著者 Wenhao Yu,Nimrod Gileadi,Chuyuan Fu,Sean Kirmani,Kuang-Huei Lee,Montse Gonzalez Arenas,Hao-Tien Lewis Chiang,Tom Erez,Leonard Hasenclever,Jan Humplik,Brian Ichter,Ted Xiao,Peng Xu,Andy Zeng,Tingnan Zhang,Nicolas Heess,Dorsa Sadigh,Jie Tan,Yuval Tassa,Fei Xia
発行日 2023-06-14 17:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク