Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation

要約

現実世界のシナリオでは、多くのロボット操作タスクは遮蔽や限られた視野によって妨げられ、固定カメラや手首に取り付けたカメラに依存する受動的観察ベースのモデルにとって大きな課題となります。
この論文では、限られた視覚観察下でのロボット操作の問題を調査し、タスク駆動型の非同期アクティブ視覚アクションモデルを提案します。私たちのモデルは、カメラの Next-Best-View (NBV) ポリシーとグリッパー Next-Best Pose を直列に接続します。
(NBP) ポリシーを採用し、数ショット強化学習を使用してセンサーとモーターの調整フレームワークでトレーニングします。
このアプローチにより、エージェントは三人称カメラを調整してタスクの目標に基づいて環境を能動的に観察し、その後適切な操作アクションを推測することができます。私たちは、RLBench の 8 つの視点制限タスクでモデルをトレーニングし、評価しました。
結果は、私たちのモデルが常にベースライン アルゴリズムよりも優れたパフォーマンスを示し、操作タスクにおける視覚的制約の処理におけるその有効性を示しています。

要約(オリジナル)

In real-world scenarios, many robotic manipulation tasks are hindered by occlusions and limited fields of view, posing significant challenges for passive observation-based models that rely on fixed or wrist-mounted cameras. In this paper, we investigate the problem of robotic manipulation under limited visual observation and propose a task-driven asynchronous active vision-action model.Our model serially connects a camera Next-Best-View (NBV) policy with a gripper Next-Best Pose (NBP) policy, and trains them in a sensor-motor coordination framework using few-shot reinforcement learning. This approach allows the agent to adjust a third-person camera to actively observe the environment based on the task goal, and subsequently infer the appropriate manipulation actions.We trained and evaluated our model on 8 viewpoint-constrained tasks in RLBench. The results demonstrate that our model consistently outperforms baseline algorithms, showcasing its effectiveness in handling visual constraints in manipulation tasks.

arxiv情報

著者 Guokang Wang,Hang Li,Shuyuan Zhang,Yanhong Liu,Huaping Liu
発行日 2024-10-01 15:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク