要約
複雑な表現と政策学習の要件のために、長老のロボット操作における効率的な制御は困難です。
モデルベースの視覚強化学習(RL)は、これらの課題に対処する上で大きな可能性を示していますが、特に長老環境でのまばらな報酬と複雑な視覚的特徴の処理において、顕著な制限に依然として直面しています。
これらの制限に対処するために、長距離タスク用の認識センスプランアクション(RSPA)パイプラインを提案し、長いホリゾンロボット操作のために調整されたLLM支援マルチビューワールドモデルであるRobohorizonをさらに紹介します。
Robohorizonでは、事前に訓練されたLLMSは、タスク言語命令に基づいてマルチステージサブタスクの密な報酬構造を生成し、ロボットが長距離タスクをよりよく認識できるようにします。
次に、キーフレームの発見をマルチビューマスク自動エンコーダー(MAE)アーキテクチャに統合して、重要なタスクシーケンスを感知するロボットの能力を高め、長期測定プロセスのマルチステージ認識を強化します。
これらの密集した報酬とマルチビュー表現を活用して、ロボットワールドモデルが構築され、長距離タスクを効率的に計画し、RLアルゴリズムを介してロボットが確実に作用することができます。
RLBenchとFurniturebenchの2つの代表的なベンチマークでの実験は、Robohorizonが最先端の視覚モデルベースのRLメソッドよりも優れていることを示しており、RLBenchの4つのショートホリゾンタスクでタスクの成功率を23.35%改善し、29.23%の改善を示しています。
RLBenchからの6つの長距離タスクとFurnitureBenchからの3つの家具アセンブリタスク。
要約(オリジナル)
Efficient control in long-horizon robotic manipulation is challenging due to complex representation and policy learning requirements. Model-based visual reinforcement learning (RL) has shown great potential in addressing these challenges but still faces notable limitations, particularly in handling sparse rewards and complex visual features in long-horizon environments. To address these limitations, we propose the Recognize-Sense-Plan-Act (RSPA) pipeline for long-horizon tasks and further introduce RoboHorizon, an LLM-assisted multi-view world model tailored for long-horizon robotic manipulation. In RoboHorizon, pre-trained LLMs generate dense reward structures for multi-stage sub-tasks based on task language instructions, enabling robots to better recognize long-horizon tasks. Keyframe discovery is then integrated into the multi-view masked autoencoder (MAE) architecture to enhance the robot’s ability to sense critical task sequences, strengthening its multi-stage perception of long-horizon processes. Leveraging these dense rewards and multi-view representations, a robotic world model is constructed to efficiently plan long-horizon tasks, enabling the robot to reliably act through RL algorithms. Experiments on two representative benchmarks, RLBench and FurnitureBench, show that RoboHorizon outperforms state-of-the-art visual model-based RL methods, achieving a 23.35% improvement in task success rates on RLBench’s 4 short-horizon tasks and a 29.23% improvement on 6 long-horizon tasks from RLBench and 3 furniture assembly tasks from FurnitureBench.
arxiv情報
著者 | Zixuan Chen,Jing Huo,Yangtao Chen,Yang Gao |
発行日 | 2025-01-24 13:29:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google