MHRC: Closed-loop Decentralized Multi-Heterogeneous Robot Collaboration with Large Language Models

要約

大規模言語モデル (LLM) とロボット工学の統合により、知覚、認知、タスク計画におけるロボットの能力が大幅に向上しました。
自然言語インターフェイスの使用により、異種ロボットの能力の違いを表現するための統一されたアプローチが提供され、ロボット間のコミュニケーションが容易になり、シームレスなタスクの割り当てとコラボレーションが可能になります。
現在、分散型の複数の異種ロボットの協調タスクを実現するための LLM の利用は、依然として研究が進んでいない研究分野です。
この論文では、LLM を利用して複数の異種ロボット間の分散型コラボレーションを実現する新しいフレームワークを紹介します。
私たちのフレームワークは、移動ロボット、操作ロボット、移動操作ロボットの 3 つのロボット カテゴリをサポートし、連携して探索、輸送、編成などのタスクを完了します。
私たちは、タスク計画の効率とシステム全体のパフォーマンスを向上させるために、テキストによるフィードバック メカニズムと思考連鎖 (CoT) プロンプトの豊富なセットを開発しました。
移動マニピュレーションロボットは、ベース位置を柔軟に調整できるため、タスクの把握に最適な状態を確保できます。
操作ロボットはタスクの要件を理解し、必要に応じて支援を求め、物体を適切に扱うことができます。
一方、移動ロボットは環境を広範囲に探索し、物体の位置をマッピングし、その情報を移動操作ロボットに伝達することができるため、タスクの実行効率が向上します。
PyBullet を使用してフレームワークを評価し、3 つの異なる部屋のレイアウトと 3 つの異なる運用タスクを含むシナリオを作成しました。
私たちはさまざまな LLM モデルをテストし、アブレーション研究を実施して、さまざまなモジュールの寄与を評価しました。
実験結果により、提案したフレームワークの有効性と必要性​​が確認されました。

要約(オリジナル)

The integration of large language models (LLMs) with robotics has significantly advanced robots’ abilities in perception, cognition, and task planning. The use of natural language interfaces offers a unified approach for expressing the capability differences of heterogeneous robots, facilitating communication between them, and enabling seamless task allocation and collaboration. Currently, the utilization of LLMs to achieve decentralized multi-heterogeneous robot collaborative tasks remains an under-explored area of research. In this paper, we introduce a novel framework that utilizes LLMs to achieve decentralized collaboration among multiple heterogeneous robots. Our framework supports three robot categories, mobile robots, manipulation robots, and mobile manipulation robots, working together to complete tasks such as exploration, transportation, and organization. We developed a rich set of textual feedback mechanisms and chain-of-thought (CoT) prompts to enhance task planning efficiency and overall system performance. The mobile manipulation robot can adjust its base position flexibly, ensuring optimal conditions for grasping tasks. The manipulation robot can comprehend task requirements, seek assistance when necessary, and handle objects appropriately. Meanwhile, the mobile robot can explore the environment extensively, map object locations, and communicate this information to the mobile manipulation robot, thus improving task execution efficiency. We evaluated the framework using PyBullet, creating scenarios with three different room layouts and three distinct operational tasks. We tested various LLM models and conducted ablation studies to assess the contributions of different modules. The experimental results confirm the effectiveness and necessity of our proposed framework.

arxiv情報

著者 Wenhao Yu,Jie Peng,Yueliang Ying,Sai Li,Jianmin Ji,Yanyong Zhang
発行日 2024-09-24 12:29:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク