要約
長距離ロボット操作における効率的な制御は、複雑な表現とポリシー学習の要件により困難です。
モデルベースの視覚強化学習 (RL) は、これらの課題に対処する上で大きな可能性を示していますが、特に長期環境でのまばらな報酬や複雑な視覚的特徴の処理において、依然として顕著な制限に直面しています。
これらの制限に対処するために、私たちは長期的なタスク向けの Recognize-Sense-Plan-Act (RSPA) パイプラインを提案し、さらに、長期的なロボット操作に合わせて調整された LLM 支援のマルチビュー ワールド モデルである RoboHorizon を導入します。
RoboHorizon では、事前トレーニングされた LLM がタスク言語の命令に基づいて多段階のサブタスクに対して高密度の報酬構造を生成し、ロボットが長期的なタスクをより適切に認識できるようにします。
次に、キーフレーム検出がマルチビュー マスク オートエンコーダ (MAE) アーキテクチャに統合され、重要なタスク シーケンスを感知するロボットの能力が強化され、長期プロセスの多段階認識が強化されます。
これらの高密度の報酬とマルチビュー表現を活用して、長期的なタスクを効率的に計画するロボット世界モデルが構築され、ロボットが RL アルゴリズムを通じて確実に動作できるようになります。
2 つの代表的なベンチマークである RLBench と FurnitureBench での実験では、RoboHorizon が最先端のビジュアル モデル ベースの RL 手法を上回っており、RLBench の 4 つの短地平タスクでタスク成功率が 23.35% 向上し、
RLBench の 6 つの長期タスクと、FurnitureBench の 3 つの家具組み立てタスク。
要約(オリジナル)
Efficient control in long-horizon robotic manipulation is challenging due to complex representation and policy learning requirements. Model-based visual reinforcement learning (RL) has shown great potential in addressing these challenges but still faces notable limitations, particularly in handling sparse rewards and complex visual features in long-horizon environments. To address these limitations, we propose the Recognize-Sense-Plan-Act (RSPA) pipeline for long-horizon tasks and further introduce RoboHorizon, an LLM-assisted multi-view world model tailored for long-horizon robotic manipulation. In RoboHorizon, pre-trained LLMs generate dense reward structures for multi-stage sub-tasks based on task language instructions, enabling robots to better recognize long-horizon tasks. Keyframe discovery is then integrated into the multi-view masked autoencoder (MAE) architecture to enhance the robot’s ability to sense critical task sequences, strengthening its multi-stage perception of long-horizon processes. Leveraging these dense rewards and multi-view representations, a robotic world model is constructed to efficiently plan long-horizon tasks, enabling the robot to reliably act through RL algorithms. Experiments on two representative benchmarks, RLBench and FurnitureBench, show that RoboHorizon outperforms state-of-the-art visual model-based RL methods, achieving a 23.35% improvement in task success rates on RLBench’s 4 short-horizon tasks and a 29.23% improvement on 6 long-horizon tasks from RLBench and 3 furniture assembly tasks from FurnitureBench.
arxiv情報
著者 | Zixuan Chen,Jing Huo,Yangtao Chen,Yang Gao |
発行日 | 2025-01-15 08:01:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google