Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation

要約

実際のシナリオでは、多くのロボット操作タスクが閉塞と限られた視野によって妨げられており、固定またはリストに取り付けられたカメラに依存する受動的な観察ベースのモデルに大きな課題を提起します。
このホワイトペーパーでは、限られた視覚観察下でのロボット操作の問題を調査し、タスク駆動型の非同期アクティブビジョンアクションモデルを提案します。ORモデルは、カメラを連続的に接続しますNEXT-BEST-VIEW(NBV)ポリシーをグリッパーの次のベストポーズに接続します
(NBP)ポリシー、および少ないショット強化学習を使用して、センサーモーター調整フレームワークでそれらをトレーニングします。
このアプローチにより、エージェントはサードパーソンカメラを調整して、タスクの目標に基づいて環境を積極的に観察し、その後適切な操作アクションを推測できます。
結果は、私たちのモデルがベースラインアルゴリズムを常に上回ることを示しており、操作タスクでの視覚的制約の処理における有効性を示しています。

要約(オリジナル)

In real-world scenarios, many robotic manipulation tasks are hindered by occlusions and limited fields of view, posing significant challenges for passive observation-based models that rely on fixed or wrist-mounted cameras. In this paper, we investigate the problem of robotic manipulation under limited visual observation and propose a task-driven asynchronous active vision-action model.Our model serially connects a camera Next-Best-View (NBV) policy with a gripper Next-Best Pose (NBP) policy, and trains them in a sensor-motor coordination framework using few-shot reinforcement learning. This approach allows the agent to adjust a third-person camera to actively observe the environment based on the task goal, and subsequently infer the appropriate manipulation actions.We trained and evaluated our model on 8 viewpoint-constrained tasks in RLBench. The results demonstrate that our model consistently outperforms baseline algorithms, showcasing its effectiveness in handling visual constraints in manipulation tasks.

arxiv情報

著者 Guokang Wang,Hang Li,Shuyuan Zhang,Di Guo,Yanhong Liu,Huaping Liu
発行日 2025-02-12 05:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク