WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model

要約

ロボットが言語命令を理解し、視覚認識に応じて反応できるようにすることは、ロボット研究コミュニティの長年の目標でした。
この目標を達成するには、自然言語処理、コンピューター ビジョン、ロボット工学における最先端の進歩が必要です。
したがって、この論文では主に、人間とロボットのインタラクションの有効性を高めるために、最新の大規模言語モデル (LLM) と既存の視覚的接地およびロボット把握システムを統合する可能性を調査します。
この統合の例として、WALL-E (大規模言語モデルを使用したエンボディド ロボット ウェイター ロードリフティング) を紹介します。
このシステムは、ChatGPT の LLM を利用して、ユーザーの好みのオブジェクトを複数ラウンドの対話型対話を介してターゲット指示として要約します。
次に、ターゲットの指示は、オブジェクトの姿勢とサイズを推定するために視覚的接地システムに転送され、その後、ロボットがそれに応じてオブジェクトを把握します。
この LLM 機能を備えたシステムを物理ロボットに導入して、指示に基づいた把握タスクのためのよりユーザーフレンドリーなインターフェイスを提供します。
さまざまな現実世界のシナリオに関するさらなる実験結果により、私たちが提案したフレームワークの実現可能性と有効性が実証されました。
プロジェクトの Web サイトを参照してください: https://star-uu-wang.github.io/WALL-E/

要約(オリジナル)

Enabling robots to understand language instructions and react accordingly to visual perception has been a long-standing goal in the robotics research community. Achieving this goal requires cutting-edge advances in natural language processing, computer vision, and robotics engineering. Thus, this paper mainly investigates the potential of integrating the most recent Large Language Models (LLMs) and existing visual grounding and robotic grasping system to enhance the effectiveness of the human-robot interaction. We introduce the WALL-E (Embodied Robotic WAiter load lifting with Large Language model) as an example of this integration. The system utilizes the LLM of ChatGPT to summarize the preference object of the users as a target instruction via the multi-round interactive dialogue. The target instruction is then forwarded to a visual grounding system for object pose and size estimation, following which the robot grasps the object accordingly. We deploy this LLM-empowered system on the physical robot to provide a more user-friendly interface for the instruction-guided grasping task. The further experimental results on various real-world scenarios demonstrated the feasibility and efficacy of our proposed framework. See the project website at: https://star-uu-wang.github.io/WALL-E/

arxiv情報

著者 Tianyu Wang,Yifan Li,Haitao Lin,Xiangyang Xue,Yanwei Fu
発行日 2023-08-31 13:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク