Robots Can Multitask Too: Integrating a Memory Architecture and LLMs for Enhanced Cross-Task Robot Action Generation

要約

大規模言語モデル (LLM) は、ロボットの知覚と身体能力に基づく LLM の常識的推論を基礎付けるために、ロボット アプリケーションで最近使用されています。
ヒューマノイド ロボットでは、特にロボットが以前のタスクの状態、環境の状態、実行されたアクションを記憶する必要があるマルチタスクのセットアップにおいて、記憶は現実世界の具体化を促進し、長期的なインタラクティブ機能を促進する上で重要な役割を果たします。
この論文では、ロボットがタスク間を効果的に切り替えながら、クロスタスクのロボット動作を生成するために LLM を使用した記憶プロセスを組み込むことに取り組みます。
私たちが提案する二層アーキテクチャは 2 つの LLM を特徴としており、推論と指示に従うという補完的なスキルを活用し、人間の認知からインスピレーションを得た記憶モデルと組み合わせています。
私たちの結果は、5 つのロボット タスクのベースラインと比較してパフォーマンスが大幅に向上していることを示しており、メモリと LLM を統合してロボットの動作と認識を組み合わせて適応的なタスクを実行する可能性を示しています。

要約(オリジナル)

Large Language Models (LLMs) have been recently used in robot applications for grounding LLM common-sense reasoning with the robot’s perception and physical abilities. In humanoid robots, memory also plays a critical role in fostering real-world embodiment and facilitating long-term interactive capabilities, especially in multi-task setups where the robot must remember previous task states, environment states, and executed actions. In this paper, we address incorporating memory processes with LLMs for generating cross-task robot actions, while the robot effectively switches between tasks. Our proposed dual-layered architecture features two LLMs, utilizing their complementary skills of reasoning and following instructions, combined with a memory model inspired by human cognition. Our results show a significant improvement in performance over a baseline of five robotic tasks, demonstrating the potential of integrating memory with LLMs for combining the robot’s action and perception for adaptive task execution.

arxiv情報

著者 Hassan Ali,Philipp Allgeuer,Carlo Mazzola,Giulia Belgiovine,Burak Can Kaplan,Stefan Wermter
発行日 2024-07-18 13:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク