要約
大規模な言語モデルは、膨大な量の意味論的な知識をエンコードし、優れた理解力と推論能力を備えています。
これまでの研究では、言語モデルによって生成されたシーケンスが論理的に正しく、実際に実行可能であることを保証するために、ロボット タスクに言語モデルを接地する方法が検討されてきました。
ただし、下位レベルの実行は、環境の変動や不完全なコントローラー設計により、上位レベルの計画から逸脱する可能性があります。
この論文では、計画と実行の間のミスアラインメントの即時検出と回復を可能にする新しい言語モデル基礎フレームワークである DoReMi を提案します。
具体的には、LLM は、計画ステップと計画ステップの制約生成の両方に利用されます。
これらの制約は、計画と実行の不整合を示す可能性があるため、ビジョン質問応答 (VQA) モデルを使用して、低レベルのスキルの実行中に制約をチェックします。
特定のずれが発生した場合、このメソッドは言語モデルを呼び出して、ずれを回復するために再計画します。
ロボットアームや人型ロボットを含むさまざまな複雑なタスクに関する実験により、私たちの方法がタスクの成功率を高め、タスク完了時間を短縮できることが実証されました。
ドレミのビデオは https://sites.google.com/view/doremi-paper でご覧いただけます。
要約(オリジナル)
Large language models encode a vast amount of semantic knowledge and possess remarkable understanding and reasoning capabilities. Previous research has explored how to ground language models in robotic tasks to ensure that the sequences generated by the language model are both logically correct and practically executable. However, low-level execution may deviate from the high-level plan due to environmental perturbations or imperfect controller design. In this paper, we propose DoReMi, a novel language model grounding framework that enables immediate Detection and Recovery from Misalignments between plan and execution. Specifically, LLMs are leveraged for both planning and generating constraints for planned steps. These constraints can indicate plan-execution misalignments and we use a vision question answering (VQA) model to check constraints during low-level skill execution. If certain misalignment occurs, our method will call the language model to re-plan in order to recover from misalignments. Experiments on various complex tasks including robot arms and humanoid robots demonstrate that our method can lead to higher task success rates and shorter task completion times. Videos of DoReMi are available at https://sites.google.com/view/doremi-paper.
arxiv情報
著者 | Yanjiang Guo,Yen-Jen Wang,Lihan Zha,Zheyuan Jiang,Jianyu Chen |
発行日 | 2023-08-24 10:25:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google