要約
大規模言語モデル (LLM) は、ロボット工学の分野で人気が高まっています。
ただし、LLM ベースのロボットは、言語モデル、ロボット、環境の間の統合が不十分であるため、単純な反復動作に限定されます。
この論文では、ヒューマン ロボット コラボレーション (HRC) を通じて LLM ベースの自律操作のパフォーマンスを向上させる新しいアプローチを提案します。
このアプローチには、プロンプト GPT-4 言語モデルを使用して、高級言語コマンドをロボットが実行できる一連の動作に分解することが含まれます。
このシステムは、YOLO ベースの知覚アルゴリズムも採用しており、特定の環境内で実行可能な動作を計画するのに役立つ視覚的な手がかりを LLM に提供します。
さらに、遠隔操作と動的移動プリミティブ (DMP) を組み合わせた HRC 手法が提案されており、LLM ベースのロボットが人間の誘導から学習できるようになります。
トヨタのヒューマンサポートロボットを操作タスクに使用して、実際の実験が行われています。
この結果は、複雑な軌道計画と環境上の推論を必要とするタスクが、人間によるデモンストレーションを組み込むことで効率的に達成できることを示しています。
要約(オリジナル)
Large Language Models (LLMs) are gaining popularity in the field of robotics. However, LLM-based robots are limited to simple, repetitive motions due to the poor integration between language models, robots, and the environment. This paper proposes a novel approach to enhance the performance of LLM-based autonomous manipulation through Human-Robot Collaboration (HRC). The approach involves using a prompted GPT-4 language model to decompose high-level language commands into sequences of motions that can be executed by the robot. The system also employs a YOLO-based perception algorithm, providing visual cues to the LLM, which aids in planning feasible motions within the specific environment. Additionally, an HRC method is proposed by combining teleoperation and Dynamic Movement Primitives (DMP), allowing the LLM-based robot to learn from human guidance. Real-world experiments have been conducted using the Toyota Human Support Robot for manipulation tasks. The outcomes indicate that tasks requiring complex trajectory planning and reasoning over environments can be efficiently accomplished through the incorporation of human demonstrations.
arxiv情報
著者 | Haokun Liu,Yaonan Zhu,Kenji Kato,Atsushi Tsukahara,Izumi Kondo,Tadayoshi Aoyama,Yasuhisa Hasegawa |
発行日 | 2024-06-20 08:23:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google