要約
自律的な家庭用オブジェクト管理のためのLLM駆動型エージェント – 組織化アーキテクチャを備えた具体化されたロボットシステムを提示します。
このシステムは、メモリの高度タスク計画を統合し、ロボットが過去のアクションを追跡しながら高レベルのユーザーコマンドを実行できるようにします。
ルーティングエージェント、タスク計画エージェント、およびそれぞれタスク固有のLLMを搭載したナレッジベースエージェントの3つの専門エージェントを採用しています。
コンテキスト内学習を活用することにより、システムは明示的なモデルトレーニングの必要性を回避します。
RAGを使用すると、システムは過去の相互作用からコンテキストを取得し、長期オブジェクト追跡を強化します。
接地されたSAMとllama3.2-visionの組み合わせは、堅牢なオブジェクト検出を提供し、タスク計画のセマンティックシーンの理解を促進します。
3つの世帯シナリオにわたる評価は、タスク計画の正確性が高いことを示し、RAGによるメモリリコールの改善が示されています。
具体的には、QWEN2.5は専門のエージェントに最高のパフォーマンスをもたらし、Llama3.1はルーティングタスクに優れています。
ソースコードは、https://github.com/marc1198/chat-hsrで入手できます。
要約(オリジナル)
We present an embodied robotic system with an LLM-driven agent-orchestration architecture for autonomous household object management. The system integrates memory-augmented task planning, enabling robots to execute high-level user commands while tracking past actions. It employs three specialized agents: a routing agent, a task planning agent, and a knowledge base agent, each powered by task-specific LLMs. By leveraging in-context learning, our system avoids the need for explicit model training. RAG enables the system to retrieve context from past interactions, enhancing long-term object tracking. A combination of Grounded SAM and LLaMa3.2-Vision provides robust object detection, facilitating semantic scene understanding for task planning. Evaluation across three household scenarios demonstrates high task planning accuracy and an improvement in memory recall due to RAG. Specifically, Qwen2.5 yields best performance for specialized agents, while LLaMA3.1 excels in routing tasks. The source code is available at: https://github.com/marc1198/chat-hsr.
arxiv情報
著者 | Marc Glocker,Peter Hönig,Matthias Hirschmanner,Markus Vincze |
発行日 | 2025-04-30 15:00:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google