要約
一般化可能な物体の姿勢推定の問題に取り組む従来の方法は、目に見えない物体の密なビューを取得することに大きく依存しています。
対照的に、オブジェクトの参照ビューが 1 つしか利用できないシナリオに対処します。
したがって、私たちの目標は、この参照ビューと、オブジェクトを別の姿勢で描写するクエリ画像との間の相対的なオブジェクトの姿勢を推定することです。
このシナリオでは、テスト中に目に見えないオブジェクトが存在すること、および参照とクエリの間で大規模なオブジェクトの姿勢が変化するため、堅牢な一般化が不可欠です。
この目的を達成するために、我々は、複数の姿勢仮説を生成して評価し、最終的に最も信頼性の高い仮説を相対的な物体の姿勢として選択する、新しい仮説と検証のフレームワークを提案します。
信頼性を測定するために、2 つの入力画像から学習した 3D オブジェクト表現に 3D 変換を明示的に適用する 3D 対応検証を導入します。
Objaverse、LINEMOD、CO3D データセットに関する包括的な実験は、目に見えないオブジェクトを扱う際の、相対的な姿勢推定における私たちのアプローチの優れた精度と、大規模な姿勢変動におけるロバスト性を証明しています。
要約(オリジナル)
Prior methods that tackle the problem of generalizable object pose estimation highly rely on having dense views of the unseen object. By contrast, we address the scenario where only a single reference view of the object is available. Our goal then is to estimate the relative object pose between this reference view and a query image that depicts the object in a different pose. In this scenario, robust generalization is imperative due to the presence of unseen objects during testing and the large-scale object pose variation between the reference and the query. To this end, we present a new hypothesis-and-verification framework, in which we generate and evaluate multiple pose hypotheses, ultimately selecting the most reliable one as the relative object pose. To measure reliability, we introduce a 3D-aware verification that explicitly applies 3D transformations to the 3D object representations learned from the two input images. Our comprehensive experiments on the Objaverse, LINEMOD, and CO3D datasets evidence the superior accuracy of our approach in relative pose estimation and its robustness in large-scale pose variations, when dealing with unseen objects.
arxiv情報
著者 | Chen Zhao,Tong Zhang,Mathieu Salzmann |
発行日 | 2023-10-05 13:34:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google