OPDMulti: Openable Part Detection for Multiple Objects


開閉可能な部分の検出は、単一ビューの画像内のオブジェクトの開閉可能な部分を検出し、対応するモーション パラメーターを予測するタスクです。
以前の研究では、すべての入力画像に 1 つの開くことができるオブジェクトしか含まれていないという非現実的な設定が調査されました。
次に、OPDFormer を使用して、このより困難なシナリオに対処します。これは、部分認識トランス アーキテクチャです。
私たちの実験では、OPDFormer アーキテクチャが以前の作業よりも大幅に優れていることが示されています。


Openable part detection is the task of detecting the openable parts of an object in a single-view image, and predicting corresponding motion parameters. Prior work investigated the unrealistic setting where all input images only contain a single openable object. We generalize this task to scenes with multiple objects each potentially possessing openable parts, and create a corresponding dataset based on real-world scenes. We then address this more challenging scenario with OPDFormer: a part-aware transformer architecture. Our experiments show that the OPDFormer architecture significantly outperforms prior work. The more realistic multiple-object scenarios we investigated remain challenging for all methods, indicating opportunities for future work.


著者 Xiaohao Sun,Hanxiao Jiang,Manolis Savva,Angel Xuan Chang
発行日 2023-03-24 15:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク