要約
将来の生活支援ロボットは、日常生活における様々な3次元物体を理解し、操作することが重要であるが、その実現は困難である。近年の研究では、視覚的な行動アフォーダンスの学習が提唱され、有望な結果が示されている。これは、入力された3次元形状上のすべての点に、下流のタスク(例えば、押す、拾う)を達成するための行動の可能性をラベル付けしたものである。しかし、これらの研究は単一グリッパによる操作タスクのみを対象としており、実世界の多くのタスクは両手による協働作業を必要とする。本研究では、両手操作タスクの協調アフォーダンスを学習するための新しい学習フレームワーク、DualAffordを提案する。本アプローチの中核となる設計は、効率的な学習のために、2つのグリッパーのための2次問題を、分離されているが相互接続された2つのサブタスクに縮小することである。大規模なPartNet-MobilityとShapeNetのデータセットを用いて、デュアルグリッパーの操作に関する4つのベンチマークタスクを設定する。実験により、本手法の有効性と3つのベースラインに対する優位性が証明された。その他の結果や動画は、https://hyperplane-lab.github.io/DualAfford で見ることができます。
要約(オリジナル)
It is essential yet challenging for future home-assistant robots to understand and manipulate diverse 3D objects in daily human environments. Towards building scalable systems that can perform diverse manipulation tasks over various 3D shapes, recent works have advocated and demonstrated promising results learning visual actionable affordance, which labels every point over the input 3D geometry with an action likelihood of accomplishing the downstream task (e.g., pushing or picking-up). However, these works only studied single-gripper manipulation tasks, yet many real-world tasks require two hands to achieve collaboratively. In this work, we propose a novel learning framework, DualAfford, to learn collaborative affordance for dual-gripper manipulation tasks. The core design of the approach is to reduce the quadratic problem for two grippers into two disentangled yet interconnected subtasks for efficient learning. Using the large-scale PartNet-Mobility and ShapeNet datasets, we set up four benchmark tasks for dual-gripper manipulation. Experiments prove the effectiveness and superiority of our method over three baselines. Additional results and videos can be found at https://hyperplane-lab.github.io/DualAfford .
arxiv情報
著者 | Yan Zhao,Ruihai Wu,Zhehuan Chen,Yourong Zhang,Qingnan Fan,Kaichun Mo,Hao Dong |
発行日 | 2022-07-05 11:30:37+00:00 |
arxivサイト | arxiv_id(pdf) |