EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI

要約

近年、Large Language Model(LLM)は高い推論能力を発揮し、さまざまな意思決定プロセスにおけるエージェントとしての応用が注目されています。
LLM エージェントの特に有望なアプリケーションの 1 つは、ロボット操作です。
最近の研究では、LLM がロボット用のテキスト プランニングまたは制御コードを生成し、大幅な柔軟性と対話機能を提供できることが示されています。
ただし、これらの方法は、さまざまな環境にわたる柔軟性と適用性の点で依然として課題に直面しており、自律的に適応する能力が制限されています。
現在のアプローチは通常 2 つのカテゴリに分類されます。1 つは環境固有のポリシー トレーニングに依存するため、移行性が制限されるもの、もう 1 つは固定プロンプトに基づいてコード アクションを生成するもので、新しい環境に直面したときにパフォーマンスの低下につながります。
これらの制限により、ロボット操作におけるエージェントの一般化可能性が大幅に制限されます。
これらの制限に対処するために、私たちは EnvBridge と呼ばれる新しい方法を提案します。
このアプローチには、成功したロボット制御コードの保持とソース環境からターゲット環境への転送が含まれます。
EnvBridge は、複数の環境からの洞察を活用することで、さまざまな設定にわたってエージェントの適応性とパフォーマンスを強化します。
特に、私たちのアプローチは環境上の制約を軽減し、ロボット操作タスクのためのより柔軟で一般化可能なソリューションを提供します。
RLBench、MetaWorld、CALVIN などのロボット操作ベンチマークを使用して、この方法の有効性を検証しました。
私たちの実験は、LLM エージェントが多様な知識ソースをうまく活用して複雑なタスクを解決できることを示しています。
その結果、私たちのアプローチは、多様な環境にわたる計画におけるロボット操作エージェントの適応性と堅牢性を大幅に強化します。

要約(オリジナル)

In recent years, Large Language Models (LLMs) have demonstrated high reasoning capabilities, drawing attention for their applications as agents in various decision-making processes. One notably promising application of LLM agents is robotic manipulation. Recent research has shown that LLMs can generate text planning or control code for robots, providing substantial flexibility and interaction capabilities. However, these methods still face challenges in terms of flexibility and applicability across different environments, limiting their ability to adapt autonomously. Current approaches typically fall into two categories: those relying on environment-specific policy training, which restricts their transferability, and those generating code actions based on fixed prompts, which leads to diminished performance when confronted with new environments. These limitations significantly constrain the generalizability of agents in robotic manipulation. To address these limitations, we propose a novel method called EnvBridge. This approach involves the retention and transfer of successful robot control codes from source environments to target environments. EnvBridge enhances the agent’s adaptability and performance across diverse settings by leveraging insights from multiple environments. Notably, our approach alleviates environmental constraints, offering a more flexible and generalizable solution for robotic manipulation tasks. We validated the effectiveness of our method using robotic manipulation benchmarks: RLBench, MetaWorld, and CALVIN. Our experiments demonstrate that LLM agents can successfully leverage diverse knowledge sources to solve complex tasks. Consequently, our approach significantly enhances the adaptability and robustness of robotic manipulation agents in planning across diverse environments.

arxiv情報

著者 Tomoyuki Kagaya,Yuxuan Lou,Thong Jing Yuan,Subramanian Lakshmi,Jayashree Karlekar,Sugiri Pranata,Natsuki Murakami,Akira Kinose,Koki Oguri,Felix Wick,Yang You
発行日 2024-10-22 11:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク