要約
我々は、左右対称のドアや大きく遮られたドアなど、視覚的に曖昧な多関節オブジェクトを操作するための新しいアプローチを紹介します。
これらの曖昧さは、考えられるさまざまな関節動作モードに対して不確実性を引き起こす可能性があります。たとえば、完全に閉じたドアの関節方向 (例: 押す、引く、スライド) や位置 (例: 左側、右側) が不確実な場合、またはドアのような機能を区別する場合などです。
ドアの平面は視野角により遮られます。
これらの課題に取り組むために、我々は、関節オブジェクトの関節モードにわたるマルチモーダル分布をモデル化できる、歴史を意識した拡散ネットワークを提案します。
私たちの方法はさらに観測履歴を使用してモードを区別し、オクルージョン下で安定した予測を行います。
実験と分析は、私たちの方法が多関節オブジェクトの操作で最先端のパフォーマンスを達成し、視覚的な曖昧さを含む多関節オブジェクトのパフォーマンスを劇的に向上させることを示しています。
私たちのプロジェクトの Web サイトは https://flowbothd.github.io/ から入手できます。
要約(オリジナル)
We introduce a novel approach for manipulating articulated objects which are visually ambiguous, such doors which are symmetric or which are heavily occluded. These ambiguities can cause uncertainty over different possible articulation modes: for instance, when the articulation direction (e.g. push, pull, slide) or location (e.g. left side, right side) of a fully closed door are uncertain, or when distinguishing features like the plane of the door are occluded due to the viewing angle. To tackle these challenges, we propose a history-aware diffusion network that can model multi-modal distributions over articulation modes for articulated objects; our method further uses observation history to distinguish between modes and make stable predictions under occlusions. Experiments and analysis demonstrate that our method achieves state-of-art performance on articulated object manipulation and dramatically improves performance for articulated objects containing visual ambiguities. Our project website is available at https://flowbothd.github.io/.
arxiv情報
著者 | Yishu Li,Wen Hui Leng,Yiming Fang,Ben Eisner,David Held |
発行日 | 2024-10-15 22:37:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google