OPDMulti: Openable Part Detection for Multiple Objects

要約

開閉可能な部分の検出は、単一ビューの画像内のオブジェクトの開閉可能な部分を検出し、対応するモーション パラメーターを予測するタスクです。
以前の研究では、すべての入力画像に 1 つの開くことができるオブジェクトしか含まれていないという非現実的な設定が調査されました。
このタスクを、それぞれが潜在的に開くことができるパーツを持つ複数のオブジェクトを含むシーンに一般化し、現実世界のシーンに基づいて対応するデータセットを作成します。
次に、OPDFormer を使用して、このより困難なシナリオに対処します。これは、部分認識トランス アーキテクチャです。
私たちの実験では、OPDFormer アーキテクチャが以前の作業よりも大幅に優れていることが示されています。
私たちが調査したより現実的な複数オブジェクトのシナリオは、すべての方法で依然として挑戦的であり、将来の作業の機会を示しています。

要約(オリジナル)

Openable part detection is the task of detecting the openable parts of an object in a single-view image, and predicting corresponding motion parameters. Prior work investigated the unrealistic setting where all input images only contain a single openable object. We generalize this task to scenes with multiple objects each potentially possessing openable parts, and create a corresponding dataset based on real-world scenes. We then address this more challenging scenario with OPDFormer: a part-aware transformer architecture. Our experiments show that the OPDFormer architecture significantly outperforms prior work. The more realistic multiple-object scenarios we investigated remain challenging for all methods, indicating opportunities for future work.

arxiv情報

著者 Xiaohao Sun,Hanxiao Jiang,Manolis Savva,Angel Xuan Chang
発行日 2023-03-24 15:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク