要約
世界と有意義に対話するには、ロボットマニピュレータが遭遇するオブジェクトを解釈できなければなりません。
この解釈の重要な側面は姿勢推定です。つまり、3D 空間内のオブジェクトの位置と方向を記述する量を推定します。
姿勢推定に対する既存のアプローチのほとんどは、限定的な仮定を行っており、多くの場合、特定の既知のオブジェクト インスタンスに対してのみ機能するか、せいぜいポーズのラベルが付けられた大規模なデータセットを使用してオブジェクト カテゴリに一般化するだけです。
この研究では、目的のカテゴリから 1 つのオブジェクトだけを検査することで、カテゴリ レベルの姿勢推定を達成する方法を紹介します。
その後、検査されたカテゴリからの目に見えないオブジェクトの正確な姿勢推定を実行でき、マルチビュー対応を利用することで以前の研究を大幅に上回るパフォーマンスを示すことができます。
私たちは、この方法がリアルタイムで実行され、RGBD センサーを備えたロボット マニピュレーターが新しいオブジェクトのオンライン 6D 姿勢推定を実行できることを実証します。
最後に、オブジェクトが既知のカテゴリに属しているかどうかをロボットが判断できるようにし、そうでない場合は、能動的な知覚を使用して、その後の姿勢推定のためのワンショット カテゴリ表現を生成できる、継続的な学習環境での手法を紹介します。
要約(オリジナル)
In order to meaningfully interact with the world, robot manipulators must be able to interpret objects they encounter. A critical aspect of this interpretation is pose estimation: inferring quantities that describe the position and orientation of an object in 3D space. Most existing approaches to pose estimation make limiting assumptions, often working only for specific, known object instances, or at best generalising to an object category using large pose-labelled datasets. In this work, we present a method for achieving category-level pose estimation by inspection of just a single object from a desired category. We show that we can subsequently perform accurate pose estimation for unseen objects from an inspected category, and considerably outperform prior work by exploiting multi-view correspondences. We demonstrate that our method runs in real-time, enabling a robot manipulator equipped with an RGBD sensor to perform online 6D pose estimation for novel objects. Finally, we showcase our method in a continual learning setting, with a robot able to determine whether objects belong to known categories, and if not, use active perception to produce a one-shot category representation for subsequent pose estimation.
arxiv情報
著者 | Walter Goodwin,Ioannis Havoutis,Ingmar Posner |
発行日 | 2023-05-22 01:32:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google