Integrating Visual Foundation Models for Enhanced Robot Manipulation and Motion Planning: A Layered Approach

要約

この論文では、ロボット操作タスクと動作計画を改善するために視覚的基礎モデルを統合する新しい階層化フレームワークを紹介します。
このフレームワークは、知覚、認知、計画、実行、学習の 5 つの層で構成されます。
視覚的な基礎モデルを使用することで、ロボットの環境認識が強化され、より効率的なタスクの理解と正確な動作計画が可能になります。
このアプローチにより、リアルタイムの調整と継続的な学習が可能になり、タスクの実行が大幅に向上します。
実験結果は、さまざまなロボット操作タスクや動作計画シナリオにおける提案されたフレームワークの有効性を実証し、動的環境での実用的な展開の可能性を強調しています。

要約(オリジナル)

This paper presents a novel layered framework that integrates visual foundation models to improve robot manipulation tasks and motion planning. The framework consists of five layers: Perception, Cognition, Planning, Execution, and Learning. Using visual foundation models, we enhance the robot’s perception of its environment, enabling more efficient task understanding and accurate motion planning. This approach allows for real-time adjustments and continual learning, leading to significant improvements in task execution. Experimental results demonstrate the effectiveness of the proposed framework in various robot manipulation tasks and motion planning scenarios, highlighting its potential for practical deployment in dynamic environments.

arxiv情報

著者 Chen Yang,Peng Zhou,Jiaming Qi
発行日 2023-09-20 12:11:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク