PickScan: Object discovery and reconstruction from handheld interactions

要約

各オブジェクトが独自の 3D モデルで表現されるシーンの構成 3D 表現を再構築することは、ロボット工学や拡張現実において非常に望ましい機能です。
ただし、既存のメソッドのほとんどは、オブジェクトの検出において強力な外観事前分布に大きく依存しているため、メソッドがトレーニングされたオブジェクトのクラスに対してのみ機能するか、オブジェクトを完全にスキャンしてオブジェクトをガイドするために必要なオブジェクト操作ができません。
困難なシナリオでの発見。
私たちは、ユーザーが RGB-D カメラでシーン内を移動し、オブジェクトをかざし、最終的にかざしたオブジェクトごとに 1 つの 3D モデルを出力できるようにする、オブジェクトの変位に基づく新しいインタラクションガイド付きのクラスに依存しない新しい方法でこれらの制限に対処します。

この目的に対する私たちの主な貢献は、ユーザーとオブジェクトの相互作用を検出し、操作されたオブジェクトのマスクを抽出する新しいアプローチです。
カスタムキャプチャされたデータセット上で、当社のパイプラインは 100% 再現率で 78.3% の精度で操作されたオブジェクトを検出し、平均面取り距離 0.90cm でそれらを再構築します。
唯一比較可能な相互作用ベースでクラスに依存しないベースラインである Co-Fusion と比較すると、これは面取り距離の 73% の減少に相当し、検出される偽陽性の数は 99% 減少します。

要約(オリジナル)

Reconstructing compositional 3D representations of scenes, where each object is represented with its own 3D model, is a highly desirable capability in robotics and augmented reality. However, most existing methods rely heavily on strong appearance priors for object discovery, therefore only working on those classes of objects on which the method has been trained, or do not allow for object manipulation, which is necessary to scan objects fully and to guide object discovery in challenging scenarios. We address these limitations with a novel interaction-guided and class-agnostic method based on object displacements that allows a user to move around a scene with an RGB-D camera, hold up objects, and finally outputs one 3D model per held-up object. Our main contribution to this end is a novel approach to detecting user-object interactions and extracting the masks of manipulated objects. On a custom-captured dataset, our pipeline discovers manipulated objects with 78.3% precision at 100% recall and reconstructs them with a mean chamfer distance of 0.90cm. Compared to Co-Fusion, the only comparable interaction-based and class-agnostic baseline, this corresponds to a reduction in chamfer distance of 73% while detecting 99% fewer false positives.

arxiv情報

著者 Vincent van der Brugge,Marc Pollefeys,Joshua B. Tenenbaum,Ayush Tewari,Krishna Murthy Jatavallabhula
発行日 2024-11-17 23:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO, I.4.5 パーマリンク