要約
操作計画の従来のアプローチは、環境の明示的な幾何学的モデルに依存して、特定のタスクを最適化問題として定式化します。
ただし、生のセンサー入力から正確なモデルを推測すること自体が難しい問題であり、特に多関節物体 (クローゼット、引き出しなど) の場合は困難です。
この論文では、画像から直接操作計画を可能にする多関節オブジェクトの神経場表現 (NFR) を提案します。
具体的には、新しい多関節オブジェクトの写真を数枚撮った後、その可能な動きをフォワードシミュレーションできるため、このニューラルモデルを軌道最適化による計画に直接使用できます。
さらに、この表現は、形状の再構築、セマンティック セグメンテーション、画像レンダリングに使用でき、トレーニングと一般化中に強力な監視信号を提供します。
合成画像のみでトレーニングされたモデルが、シミュレーションと実際の画像の両方で、同じクラスの目に見えないオブジェクトの意味のある表現を抽出できることを示します。
さらに、この表現により、実世界の多関節オブジェクトを画像から直接ロボット操作できることを実証します。
要約(オリジナル)
Traditional approaches for manipulation planning rely on an explicit geometric model of the environment to formulate a given task as an optimization problem. However, inferring an accurate model from raw sensor input is a hard problem in itself, in particular for articulated objects (e.g., closets, drawers). In this paper, we propose a Neural Field Representation (NFR) of articulated objects that enables manipulation planning directly from images. Specifically, after taking a few pictures of a new articulated object, we can forward simulate its possible movements, and, therefore, use this neural model directly for planning with trajectory optimization. Additionally, this representation can be used for shape reconstruction, semantic segmentation and image rendering, which provides a strong supervision signal during training and generalization. We show that our model, which was trained only on synthetic images, is able to extract a meaningful representation for unseen objects of the same class, both in simulation and with real images. Furthermore, we demonstrate that the representation enables robotic manipulation of an articulated object in the real world directly from images.
arxiv情報
著者 | Phillip Grote,Joaquim Ortiz-Haro,Marc Toussaint,Ozgur S. Oguz |
発行日 | 2023-09-14 11:29:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google