要約
我々は、短期的な動作を超えた長期的なタスクの問題解決能力を四足ロボットに与える、大規模言語モデル (LLM) ベースのシステムを紹介します。
四足動物の長距離タスクは、タスク計画のための問題の意味論の高度な理解と、環境と対話するための幅広い移動および操作スキルの両方を必要とするため、困難です。
私たちのシステムは、大規模な言語モデルを使用して高レベルの推論層を構築し、タスクの説明からハイブリッドの離散連続計画をロボット コードとして生成します。
これは、計画をスケッチするためのセマンティック プランナー、計画内の引数を予測するためのパラメータ計算機、および計画を実行可能なロボット コードに変換するためのコード ジェネレーターという複数の LLM エージェントで構成されます。
低レベルでは、強化学習を採用して一連の動作計画と制御スキルをトレーニングし、四足動物の柔軟性を解放して豊かな環境インタラクションを実現します。
私たちのシステムは、1 つのスキルだけでは完了することが不可能な長期的なタスクでテストされています。
シミュレーションと現実世界での実験は、それが複数段階の戦略を首尾よく導き出し、ツールの構築や人間への助けの通知などの重要な動作を実証することを示しています。
要約(オリジナル)
We present a large language model (LLM) based system to empower quadrupedal robots with problem-solving abilities for long-horizon tasks beyond short-term motions. Long-horizon tasks for quadrupeds are challenging since they require both a high-level understanding of the semantics of the problem for task planning and a broad range of locomotion and manipulation skills to interact with the environment. Our system builds a high-level reasoning layer with large language models, which generates hybrid discrete-continuous plans as robot code from task descriptions. It comprises multiple LLM agents: a semantic planner for sketching a plan, a parameter calculator for predicting arguments in the plan, and a code generator to convert the plan into executable robot code. At the low level, we adopt reinforcement learning to train a set of motion planning and control skills to unleash the flexibility of quadrupeds for rich environment interactions. Our system is tested on long-horizon tasks that are infeasible to complete with one single skill. Simulation and real-world experiments show that it successfully figures out multi-step strategies and demonstrates non-trivial behaviors, including building tools or notifying a human for help.
arxiv情報
著者 | Yutao Ouyang,Jinhan Li,Yunfei Li,Zhongyu Li,Chao Yu,Koushil Sreenath,Yi Wu |
発行日 | 2024-04-08 08:29:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google