要約
ヒューマノイド ロボットは形態学的に類似しているため、人間の生息地によく適していますが、そのコントローラーの開発は、制御、計画、知覚などの複数の下位問題を伴う困難な作業です。
この論文では、ユーザーが自然言語コマンドを使用してロボット制御ポリシーをトレーニングおよび微調整できるようにすることで、コントローラーの設計を簡素化する方法を紹介します。
まず、大規模言語モデル (LLM)、モーション リターゲット、モーション模倣を組み合わせて、「前に歩く」などの自然言語コマンドが与えられた動作を生成するニューラル ネットワーク ポリシーを学習します。
合成されたモーションに基づいて、テキスト プロンプトを更新し、LLM にクエリを実行して、履歴内で最も近いモーションに関連付けられた最適なチェックポイントを見つけることで微調整を繰り返します。
私たちは、シミュレーションされた Digit ヒューマノイド ロボットを使用してアプローチを検証し、複雑な報酬エンジニアリングの負担なしで、歩く、飛び跳ねる、蹴るなどのさまざまな動作を学習することを実証します。
さらに、反復的な改良により、最初から学習する単純な定式化よりも 3 倍の速度で学習できることを示します。
要約(オリジナル)
Humanoid robots are well suited for human habitats due to their morphological similarity, but developing controllers for them is a challenging task that involves multiple sub-problems, such as control, planning and perception. In this paper, we introduce a method to simplify controller design by enabling users to train and fine-tune robot control policies using natural language commands. We first learn a neural network policy that generates behaviors given a natural language command, such as ‘walk forward’, by combining Large Language Models (LLMs), motion retargeting, and motion imitation. Based on the synthesized motion, we iteratively fine-tune by updating the text prompt and querying LLMs to find the best checkpoint associated with the closest motion in history. We validate our approach using a simulated Digit humanoid robot and demonstrate learning of diverse motions, such as walking, hopping, and kicking, without the burden of complex reward engineering. In addition, we show that our iterative refinement enables us to learn 3x times faster than a naive formulation that learns from scratch.
arxiv情報
著者 | K. Niranjan Kumar,Irfan Essa,Sehoon Ha |
発行日 | 2023-10-10 00:39:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google