要約
相互接続された長いシーケンスの家庭用タスクの実行を担当する具体化されたAIエージェントは、多くの場合、コンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーにつながります。
この問題に対処するために、長期および短期のメモリモジュールを統合する革新的なメモリシステムであるKarmaを紹介し、メモリの補強プロンプトを通じて具体化されたエージェントの計画のための大規模な言語モデル(LLMS)を強化します。
Karmaは長期記憶と短期記憶を区別し、長期メモリは環境の表現として包括的な3Dシーングラフをキャプチャし、短期メモリはオブジェクトの位置と状態の変化を動的に記録します。
このデュアルメモリ構造により、エージェントは関連する過去のシーンエクスペリエンスを取得し、それによりタスク計画の精度と効率を改善できます。
短期メモリは、効果的で適応的なメモリ置換のための戦略を採用しており、より少ないデータを破棄しながら重要な情報の保持を保証します。
メモリで強化された最先端の具体化されたエージェントと比較して、メモリ編成された具体化されたAIエージェントは、AI2-TORシミュレーター内の複合タスクと複雑なタスクでそれぞれ1.3倍と2.3倍の成功率を改善し、タスクの実行効率を3.4xおよび62.7x増加させます。
さらに、Karmaのプラグアンドプレイ機能により、モバイル操作プラットフォームなどの現実世界のロボットシステムへのシームレスな展開が可能になることを実証します。
作品の実験ビデオは、https://youtu.be/4bt7fnw9ehsにあります。
私たちのコードは、https://github.com/wzx0swarm0robotics/karma/tree/masterで入手できます。
要約(オリジナル)
Embodied AI agents responsible for executing interconnected, long-sequence household tasks often face difficulties with in-context memory, leading to inefficiencies and errors in task execution. To address this issue, we introduce KARMA, an innovative memory system that integrates long-term and short-term memory modules, enhancing large language models (LLMs) for planning in embodied agents through memory-augmented prompting. KARMA distinguishes between long-term and short-term memory, with long-term memory capturing comprehensive 3D scene graphs as representations of the environment, while short-term memory dynamically records changes in objects’ positions and states. This dual-memory structure allows agents to retrieve relevant past scene experiences, thereby improving the accuracy and efficiency of task planning. Short-term memory employs strategies for effective and adaptive memory replacement, ensuring the retention of critical information while discarding less pertinent data. Compared to state-of-the-art embodied agents enhanced with memory, our memory-augmented embodied AI agent improves success rates by 1.3x and 2.3x in Composite Tasks and Complex Tasks within the AI2-THOR simulator, respectively, and enhances task execution efficiency by 3.4x and 62.7x. Furthermore, we demonstrate that KARMA’s plug-and-play capability allows for seamless deployment on real-world robotic systems, such as mobile manipulation platforms.Through this plug-and-play memory system, KARMA significantly enhances the ability of embodied agents to generate coherent and contextually appropriate plans, making the execution of complex household tasks more efficient. The experimental videos from the work can be found at https://youtu.be/4BT7fnw9ehs. Our code is available at https://github.com/WZX0Swarm0Robotics/KARMA/tree/master.
arxiv情報
著者 | Zixuan Wang,Bo Yu,Junzhe Zhao,Wenhao Sun,Sai Hou,Shuai Liang,Xing Hu,Yinhe Han,Yiming Gan |
発行日 | 2025-03-21 01:58:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google