ImageManip: Image-based Robotic Manipulation with Affordance-guided Next View Selection

要約

将来のホームアシスタント ロボットの分野では、ロボットが環境と対話できるようにするために 3D 多関節オブジェクトの操作が不可欠です。
既存の研究の多くは、操作ポリシーの主な入力として 3D 点群を利用しています。
ただし、このアプローチでは、データの希薄性と点群データの取得に伴う多大なコストによる課題が発生し、実用性が制限される可能性があります。
対照的に、RGB 画像は、コスト効率の高いデバイスを使用して高解像度の観察を提供しますが、空間的な 3D 幾何学的情報が不足しています。
これらの制限を克服するために、新しい画像ベースのロボット操作フレームワークを提案します。
このフレームワークは、ターゲット オブジェクトの複数の視点をキャプチャし、そのジオメトリを補完する深さ情報を推測するように設計されています。
最初に、システムはアイ・オン・ハンド RGB カメラを使用して、ターゲット オブジェクトの全体像をキャプチャします。
初期の深度マップと大まかなアフォーダンス マップを予測します。
アフォーダンス マップは、オブジェクト上の実行可能な領域を示し、後続の視点を選択するための制約として機能します。
グローバルな視覚的事前分布に基づいて、操作が成功する可能性のある領域を詳細に観察するための最適な次の視点を適応的に特定します。
幾何学的一貫性を利用してビューを融合し、ロボット操作の決定のための洗練された深度マップとより正確なアフォーダンス マップが得られます。
点群または RGB 画像を入力として採用する従来の研究と比較することにより、私たちの方法の有効性と実用性を実証します。
プロジェクトの Web ページ (https://sites.google.com/view/imagemanip) では、実際の実験により、私たちのメソッドの実用的な展開の可能性がさらに強調されています。

要約(オリジナル)

In the realm of future home-assistant robots, 3D articulated object manipulation is essential for enabling robots to interact with their environment. Many existing studies make use of 3D point clouds as the primary input for manipulation policies. However, this approach encounters challenges due to data sparsity and the significant cost associated with acquiring point cloud data, which can limit its practicality. In contrast, RGB images offer high-resolution observations using cost effective devices but lack spatial 3D geometric information. To overcome these limitations, we present a novel image-based robotic manipulation framework. This framework is designed to capture multiple perspectives of the target object and infer depth information to complement its geometry. Initially, the system employs an eye-on-hand RGB camera to capture an overall view of the target object. It predicts the initial depth map and a coarse affordance map. The affordance map indicates actionable areas on the object and serves as a constraint for selecting subsequent viewpoints. Based on the global visual prior, we adaptively identify the optimal next viewpoint for a detailed observation of the potential manipulation success area. We leverage geometric consistency to fuse the views, resulting in a refined depth map and a more precise affordance map for robot manipulation decisions. By comparing with prior works that adopt point clouds or RGB images as inputs, we demonstrate the effectiveness and practicality of our method. In the project webpage (https://sites.google.com/view/imagemanip), real world experiments further highlight the potential of our method for practical deployment.

arxiv情報

著者 Xiaoqi Li,Yanzi Wang,Yan Shen,Ponomarenko Iaroslav,Haoran Lu,Qianxu Wang,Boshi An,Jiaming Liu,Hao Dong
発行日 2023-10-13 12:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク