要約
この論文では、単眼画像からこれまでに見えなかったオブジェクトの3D方向を推定するタスクに取り組みます。
このタスクは、トレーニング中にテストオブジェクトが観察されたと通常想定するほとんどの既存の深層学習方法で検討されているタスクとは対照的です。
見えないオブジェクトを処理するために、検索ベースの戦略に従い、クエリ画像と合成的に生成された参照画像の間のマルチスケールのローカル類似性を計算することにより、ネットワークがオブジェクト固有の機能を学習するのを防ぎます。
次に、ローカルの類似性をペアワイズ画像のグローバルな類似性スコアにロバストに集約する適応融合モジュールを紹介します。
さらに、高速検索戦略を開発することにより、検索プロセスを高速化します。
LineMOD、LineMOD-Occluded、およびT-LESSデータセットでの実験では、この方法では、以前の作業よりも、見えないオブジェクトに対して大幅に優れた一般化が得られることが示されています。
コードと事前トレーニング済みモデルは、https://sailor-z.github.io/projects/Unseen_Object_Pose.htmlで入手できます。
要約(オリジナル)
In this paper, we tackle the task of estimating the 3D orientation of previously-unseen objects from monocular images. This task contrasts with the one considered by most existing deep learning methods which typically assume that the testing objects have been observed during training. To handle the unseen objects, we follow a retrieval-based strategy and prevent the network from learning object-specific features by computing multi-scale local similarities between the query image and synthetically-generated reference images. We then introduce an adaptive fusion module that robustly aggregates the local similarities into a global similarity score of pairwise images. Furthermore, we speed up the retrieval process by developing a fast retrieval strategy. Our experiments on the LineMOD, LineMOD-Occluded, and T-LESS datasets show that our method yields a significantly better generalization to unseen objects than previous works. Our code and pre-trained models are available at https://sailor-z.github.io/projects/Unseen_Object_Pose.html.
arxiv情報
著者 | Chen Zhao,Yinlin Hu,Mathieu Salzmann |
発行日 | 2022-07-22 14:43:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google